内容摘要:人工智能称得上是当前科技界最为热门的话题之一。要让每一个人站在人工智能的肩膀之上,而不是被时代所淘汰和颠覆。
关键词:人工智能;语音;科大;识别;刘庆峰
作者简介:
■记者 王一
人工智能称得上是当前科技界最为热门的话题之一。无论将其称作“下一个风口”、“最强有力的创新加速器”,还是关于它是否比人更聪明甚至取代人的各种争论,都在说明,人工智能又一次迎来了黄金发展期。
与以往几十年技术发展不同的是,这次人工智能的高潮,是伴随着生活和工作的应用而来,因此也有科学家认为,“我们或许是和人工智能真正共同生活的第一代人”。
与人工智能共同生活,语音识别技术就成了其中最重要的一环。未来,会不会出现一幅语言自然交融的场景:人与机器问答自如、说着不同语言的人们实时对话?智能语音技术正带领人类前往其中。
不再是一个需要讨论的问题
在生活中,智能语音不再是新鲜事。
你可以进行语音搜索。比如,对着手机说:“我想给XX打电话”,系统通过识别,立即将电话拨出;或者,你只要对着它轻轻哼唱一段音乐,手机就能搜索出相应的一首歌。
你还可以用语音输入信息。发送手机信息甚至长篇的电子邮件,只需对着电子终端说话,语言就能变成文字输入。
下班路上,你可以通过唤醒语音操控系统,将家里的空气净化器、空调、加湿器等电器调节到最舒适健康的状态。
要开一个重要会议,合作伙伴来自美国、德国、日本等国家,语音识别可以实时将多国语言转化成文字并翻译在大屏幕上,参会者可以直接沟通。
这些语音识别技术不仅已经变为现实,而且每一天都在进步。
“语音最大的优势是,它是人类最自然的交互方式。”前百度研究院副院长余凯曾在接受媒体采访时说道,基于自然语言的搜索请求将会成为移动互联时代的主流搜索方式之一。“如今的语音搜索不同于传统搜索模式,不是基于无关联的几个关键词来反馈结果,而是能够理解用户指令,完成一项完整的任务。”
语音技术曾经并不被人们看好,走过了漫长的蛰伏期。但随着智能手机崛起,语音技术应用也迎来了爆发性增长。
去年6月初,美国“互联网女皇”(Mary Meeker)发布的 《2016年互联网趋势报告》也认为,语音将成为最重要的交互入口。去年年初,美国麻省理工科技评论评选出的十大创新预测中,语音接口也被列为第三名,被认为是能解决重大问题、带来全新机遇的希望所在。
你会发现,近几年,苹果推出了Siri(苹果语音助手),谷歌发布了Google Now(谷歌语音服务),微软的Cortana(微软小娜,个人智能助理)也问世了,都希望通过语音助手来打开人工智能的大门。
同样,在中国,已发展了20多年的语音技术,也开始了一个前所未有的快速发展阶段。语音的彻底主流化已经不是一个需要讨论的问题,只是一个时间和习惯转移的问题。
那么,在语音识别率更高、语音合成效果更好的未来,语音会如触摸技术一样,成为人机交互的主流方式吗?
一个漫长的征途
如今,我们离人机交互的时代还有多远?
这是科大讯飞董事长刘庆峰在采访中遇到最多的问题之一,他每次都很坚定地回答:“以语音为主导,以键盘和触摸屏为辅助的人机交互时代正在到来。”
在他描绘的图景里,未来的人工智能会像水和电一样进入每个行业。这其中,“语音是人工智能的重要入口”。
刘庆峰介绍,人机交互的过程中主要包括两类语音技术,一类是语音合成,就是让机器“说话”,产生人造语音。另一类是语音识别,就是让机器听懂人说话,并能像人一样作出反应。
让机器人听懂人说话,并不容易。余凯曾这样解释:传统的语音识别中的语言模型是通过概率来“识别”的,比如用户说“中”字,“国”字紧随其后的可能性很大,其他字的出现概率相对就会小很多。利用不同的概率及数据建立的语言模型能够帮助机器识别语音。但是如果在口语化的环境下,用户语序不同或者有方言口音,就会大大干扰语音的解码识别过程,降低识别准确率。
但让机器像人一样作出反应,更难。很多人不禁问,从接受语音到识别语音,再到理解判断,最后反馈服务结果,机器真的能像人一样思维吗?
机器要能够准确识别语音并像人一样通过理解判断作出回应,需要基于大量的“学习”,通过学习,与人一样根据过去的经验进行判断预测。这种“学习”有两种方法:通过在数据中找寻类似事例来提供解决方案,或是通过归纳出许多数据样本的共性来对这件事情做出判断。这也是语音技术发展的难点。
一切都朝着人工智能的大目标努力,不过,做出一款类似《超能陆战队》里的大白的产品,能够完全理解人类的语言和行为,注定是一个漫长的征途。







