11月22日,在百度语音开放平台上线三周年之际,百度公司首席科学家吴恩达宣布,百度决定将情感合成、远场方案、唤醒二期技术和长语音方案四项具有革命性的语音技术免费开放给用户和开发者共享。
“这些技术有很大的潜力去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景都会有很好的机会,将为人机交互带来巨大的改变。”吴恩达在接受《人民邮电》报等媒体采访时如此表示,并认为在人工智能方面,中国人应该有自信心。
用户打开视频应用“爱奇艺”的手机客户端,说声“VIP续费”,系统即可准确跳转到相应的充值页。借助百度语音开放平台,现在每天有百万以上的爱奇艺用户使用语音搜索,其中80%以上转化为有效点击。65个“读者数字农家书屋”已在甘肃庆阳市试点成功,可以模拟真人朗读的百度情感语音合成技术,让很多不识字的老年人和留守儿童享受到了听书的乐趣。
“语音是人类交流最自然的方式,通过开放语音技术,百度希望可以引领语音功能产品的繁荣发展。”吴恩达说。他还表示,百度语音技术已经放入了百度自有的地图、输入法等产品中,也希望可以支持第三方公司把这些技术放进他们的产品中,让他们也获得一样有效的结果。对于语音技术的应用,不同的公司会选择不同的办法,而百度语音开放平台的工作就是支持不同的第三方公司探索出各种各样的办法。
据介绍,应用百度语音开放平台,开发者还可以利用新的接口使语音识别距离增加到3~5米,将设备的语音唤醒率提升到95%以上,同时更省电,误报更少,或提升长时间语音识别的准确率。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。目前,百度的“小度机器人人机语音交互点餐”已在上海肯德基旗舰店投入应用,可远距离随时应答点餐。长时间语音识别技术则在内容记录、智能客服、视频转写等应用方面显示出巨大的想象空间。
对于语音技术哪个国家更先进的问题,现在一半时间在美国一半时间在中国的吴恩达回答道:“坦白地说,有很多技术是在中国(发明的),也有很多技术是在美国(发明的)。有时候我们在中国发明了一项非常领先的技术,不知道为什么,我们却有点担心,其实中国人应该比较有自信。”他以自己熟悉的百度为例说明,百度是第一个做人工智能神经网络的大公司,近期也是第一个不只是做训练模型,而且应用GPU技术提供在线服务的公司。一年多前,百度的语音识别能力已经超过普通人的识别能力,近期微软才宣布他们的英语语音识别能力超过普通人。
目前,在技术指标方面,百度语音识别准确率已高达97%,居于全球领先地位。今年2月,百度深度语音识别系统Deep Speech 2入选MIT 2016十大突破技术。包括语音技术在内的百度大脑入选2016第三届乌镇世界互联网大会15大领先科技成果,成为国内唯一入选的综合型人工智能技术。
作为国内最为开放的领先语音技术开放平台,百度语音开放平台自2013年10月上线以来,每日在线语音识别要求从2013年的500万上升到今天的1.4亿,在线语音合成每日请求达2亿,开发者数量超过14万。目前,百度语音开放平台的合作伙伴已涵盖智能手机、智能电视以及服务等多个领域和场景。