今年6月,苹果发布了iOS6操作系统,其中最引人关注的改进,莫过于新版Siri对中文的支持。
随后,网络上掀起一股中文Siri的热潮,网友向Siri提出了五花八门的问题。而让人大跌眼镜的是,有用户甚至用Siri查询到了附近“三陪”场所的信息。
虽然苹果近日已对上述“涉黄”信息进行了屏蔽,但由此引发的舆论热议却并未平息。人们一方面慨叹Siri功能的强大,另一方面也对语音搜索广泛应用所带来的安全隐患忧心忡忡。
事实上,虽然Siri最早在苹果的iPhone 4S中和用户见面,但并非全由苹果打造。在Siri背后,有提供语音识别技术的Nuance公司,还有名为Wolfram Alpha的智能搜索引擎。
和谷歌等传统搜索引擎不同,Wolfram Alpha的智能搜索引擎可以回答诸如“今年超级碗交战双方的历史战绩”等问题,而且返回的是准确的答案,而非一条条的网页链接。
而Siri之所以吸引人,一方面是由于它搭载的是iPhone这个大平台,另一方面,则是由于苹果公司将语音识别、搜索等功能进行了整合。
“Siri是以个人语音助理的形式出现的,不只是语音输入,还包括查询和交互。苹果把这一系列的功能进行打包,这样就可以给用户带来比较好的体验。”中科院计算所普适计算研究中心助理研究员王向东在接受《中国科学报》记者采访时说。
在王向东看来,用户之所以能通过Siri查询到附近“三陪”的信息,主要是和Siri的搜索能力相关。“假设Siri提供的不是语音输入,而是文本输入,当用户输入相应的关键词,也会返回类似的结果。语音只是通道而已。”王向东说。
虽然Siri“涉黄”事件和语音搜索并无太大关联,但在业界看来,当前语音搜索由于和用户数广泛的移动互联网结合,因此将带来更多的安全隐患。
中科院语言声学与内容理解重点实验室主任颜永红对此表达了自己的担忧。他告诉《中国科学报》记者,现在的语音搜索技术大都采用云计算的方式,即将用户的语音数据上传至云计算平台进行识别。这些语音数据具有用户的“声纹”特征,一旦被恶意窃取,用户的隐私将受到严重侵犯。
“比如国外一些电话银行是用声纹做身份认证的。如果有人窃取了用户的声纹,就有可能把用户的银行密码破解掉。”颜永红说。
语音数据被盗还可能产生其他恶果。比如,一些不法分子在窃取大量的语音数据之后,可以编辑出一些话来用作他途,而这些话是用户根本就没说过的。
不过在王向东看来,这些问题并非语音搜索所独有。他表示,云计算下的隐私和保密,是当前移动互联网领域普遍面临的问题。“不仅仅是语音搜索,包括在云端存储的网盘等,都会涉及到类似的问题。”
以Siri为代表的语音助手,使得人机交互的方式又向前迈了一大步从多点触摸到自然语言交互。但从目前发展情况来看,这类语音助手在应用中仍面临着不少的问题。
首先是语音识别准确度的问题。王向东告诉《中国科学报》记者,语音识别技术无法做到100%准确,因此还需要人工进行修改,但有时修改的时间和直接选择用文字输入的时间相差无几。“出了错误并不可怕,要有能快速修改的手段。”王向东说。
其次,语音助手的学习能力也有待提高。王向东告诉记者,Siri之所以能够理解用户的话,其技术原理是通过一个统计学习模型将语音信号和文本进行对照,并通过大量数据进行模型训练,以提高准确率。
但难于解决的问题是,如何保证训练时的环境和应用的环境相吻合。当两者不吻合时,就会出现这样或那样的问题。
记者通过测试也发现,目前的语音助手对于日常会话比较“擅长”,比如询问天气情况,附近有哪些餐馆,以及让语音助手帮助发短信、拨电话和定闹钟等。但如果涉及专业领域的专业知识,则语音助手就不能很好地理解了。
“在海量、真实的用户数据基础上,如何用最少的人工干预,让系统实现自我演进,这是最难的事情,也是我们科研最关注的一点。”颜永红对记者说。
借着Siri的东风,我国的语音助手也快速发展,并诞生了讯飞语点等中文语音助手产品。
颜永红告诉记者,语音识别技术涉及建模和搜索算法等问题。目前在这些领域,最核心的原创的东西都是国外提出来的,我国尚有一定差距。
同时,Siri之所以智能,主要是依赖其背后的智能搜索引擎。颜永红告诉记者,智能搜索引擎所涉及的是自然语言理解的研究,而在这方面我国之前投入的力度不够。“短期内,国内科研院所和企业要想做出一个完全能跟Siri抗衡的东西,我觉得不太可能。没有持续的积累是很难的。”颜永红说。
不过,颜永红也指出,我国在发展语音识别技术方面也有一定优势。比如在中文语音数据的采集方面,比国外的企业更便捷,成本也更低。这也是本土语音识别技术企业发展的优势所在。