游客

专访百度美国研究院总监:语音和人工智能的交互是大趋势

游客 2017-03-30 08:52:40    200990 次浏览

专访百度美国研究院总监:语音和人工智能的交互是大趋势

(百度硅谷人工智能研究院总监 Adam Coates 在 EmTech Digital 大会上发表演讲)

腾讯科技纪振宇 | 发自硅谷

“百度硅谷人工智能研究院的目标是创建我们认为至少能够影响 1 亿人的人工智能技术。”百度硅谷人工智能研究院总监 Adam Coates 在本周举办的 Emtech Digital 大会上这样表示,在会后接受腾讯科技专访时,他表示,百度美国研究院的部分人工智能技术成果,实际上已经应用在了很多产品中。

此外,他还证实了百度即将扩大硅谷研究院规模的消息,新的办公区就在距离目前百度美国研究院不到一英里的位置。

“人数会在目前的基础上再扩大约一倍左右。”Coates 说。目前,百度在美国研究院共有约 200 名员工。

上周,百度首席科学家吴恩达的突然离职,令外界对百度人工智能研究的未来发展产生新的疑问。百度方面宣布,总裁张亚勤将任百度美国研究院董事长,负责百度在美国研发中心的关键人才吸引、品牌建设、以及美研同国内业务的战略协同等方面的事务。

Adam Coates 表示,自己在百度的工作性质并不会发生变化,依然会继续此前的人工智能研究工作。在加入百度之前,他曾跟随吴恩达在斯坦福大学从事人工智能方面的博士后研究。

“在出差到中国时,给我最大的感受是所有事情的变化都非常快,”Coates 说,“和硅谷的节奏完全不同。”

他表示,百度从事人工智能研究的大背景时,对于很多发展中国家来说,移动互联网的发展为人工智能时代铺平了道路。

“如果你在 2017 年第一次连接上互联网,那么你很可能是从移动设备上进行连接的。”Coates 说。

他认为,正是基于人们互联网连接方式的改变,将使得人机交互的方式也在同时发生变化。移动和物联网将变成语音和人工智能的交互。

“在移动互联网时代,我们需要全新的人机交互界面,”Coates 说,“而语音就是我们所认为的能够影响 1 亿人的方式。”

百度硅谷研究院在过去几年开发了 Deep Speech 技术,不同于传统的语音识别系统,Deep Speech 完全运用了深度学习技术,通过成百上千小时的语音数据训练后,实现对语音的识别。

此前,吴恩达在担任百度首席科学家时曾经介绍过 Deep Speech 系统,他表示,过去对于识别不同的语言,需要做相应的针对不同语言的系统,而运用了深度学习技术的 Deep Speech 系统则完全不需要对不同语言进行区别对待。“学习算法的通用性已经可以不用区分不同的语言。”

目前,Deep Speech 已经推出第二代,Adam Coates 表示,这套系统最初全是用英语语音数据进行训练,后来才引入了中文语音数据的训练。

“因为这套系统完全是基于深度学习,完全取决于训练数据,所以我们可以很快地用中文语音数据来替换,并使其成为非常强的中文语音识别引擎。”Coates 说。

他介绍说,这套系统的训练数据很庞大,加入了非常多的口音很重的中国方言数据,而这些数据的训练效果也很好,以至于很多人耳都难以听清的方言语音,系统都能够成功识别出来。

如今,百度的这套主要由美国人工智能研究院所开发的系统,已经成功实现了产品化。去年 10 月,一款名为 TalkType 的手机应用登陆安卓商店,这一应用便是基于 Deep Speech 的技术,是被百度称为第一款真正意义上的“语音优先”的输入方式,而非键盘输入之外的“语音辅助”的输入选择。

Coates 认为,百度以及其他在中国从事人工智能研究的公司的最大优势在于,中国互联网用户很快地接受了移动终端这样的上网方式,无论是普通的收发邮件、浏览网页,甚至是到餐馆就餐,全部能够用移动设备来完成,这些使用习惯与美国用户完全不同,而这些给了例如语音识别等人工智能应用的广泛的应用基础。

内容加载中