语音大数据:即将到来的网络数据浪潮--传媒--人民网
人民网>>传媒>>人民网研究院>>研究视点

语音大数据:即将到来的网络数据浪潮

刘扬

2013年08月13日18:18    来源:人民网研究院    手机看新闻

    很少有人把2012年互联网产业两个热点联系在一起:大数据与语音操控。目前所说的大数据多是指网络上文字信息储存、清洗、分析与利用,重点在于对人类行为特点的把握。语音操控则指Siri类依靠机器语音识别的人机互动,多被用来提供新型网络服务与改善用户交互体验,还没有将声音作为一种数据资源加以利用。

    当电信运营商发现数据流量正逐步超越语音流量的时候,它们还没有把语音和数据看成一回事。英国“窃听门”与美国“棱镜门”都在提醒人们声音数据的重要。科大讯飞等公司的语音产品逐步成熟、花样繁多,以及微信上语音应用兴起则说明,语音数据的浪潮即将袭来。

    语音数据为何会兴起?首先,语音交流是人类乃至其他动物最本能的沟通方式,传播技术的发展是要便捷人类沟通,必然会靠拢人类最自然的交流形式——语音传播。互联网语音识别技术及语音传播应用的增加正符合了这一趋势,记录语音的数据将大量增加。

    语音数据有很多其他类型数据无法比拟的优势,如准确、快速完成身份识别。声纹如同指纹,每个人都不相同,国内已有几家科技公司在从事声纹识别(speaker recognition 或 voiceprint recognition)技术开发,依靠声音波纹,轻松地在数十亿人中锁定一个人。如此一来,网络身份可以不再依赖IP地址或移动设备编号来确定。

    此外,语音数据包含更多“无意识”信息,更符合大数据特点——无意间流露,有意识分析。个人说话的语调、语速、音量、换气频率等都可以转化为反映个人区域、心理、健康的数据。2013年,瑞士联邦理工学院视听通讯实验室(LCAV)依靠声音数据已能构建出简单的空间凸起的三维地图[1]。同时,语音数据相对于文字数据更为准确反映意义。如网上流行的段子“冬天:能穿多少穿多少;夏天:能穿多少穿多少”。同样的文字,语音更能明确表达意图。

    最后,语音识别技术已经基本成熟,可以较为准确地转换为文字,使语音信息具备了文字信息的潜质,通过这一处理,所有基于文字的数据处理方法都可以用来分析转换过的语音信息。

    随着语音应用的增加,网上语音大数据的浪潮即将袭来,虽然也将遇到分析技术、应用伦理、隐私安全等问题,但作为一种趋势,互联网业界应予以关注,有所准备。



[1]科技网:分析4个麦克的声音可辨别环境方向,2013年6月18日

http://www.stdaily.com/kjrb/content/2013-06/18/content_615118.htm

 

 

分享到:
(责编:张瑜、唐胜宏)

相关专题


社区登录
用户名: 立即注册
密  码: 找回密码
  
  • 最新评论
  • 热门评论
查看全部留言

24小时排行 | 新闻频道留言热帖