專訪百度美國研究院總監：語音和人工智能的交互是大趨勢

专访百度美国研究院总监：语音和人工智能的交互是大趋势

（百度硅谷人工智能研究院总监 Adam Coates 在 EmTech Digital 大会上发表演讲）

腾讯科技纪振宇 | 发自硅谷

“百度硅谷人工智能研究院的目标是创建我们认为至少能够影响 1 亿人的人工智能技术。”百度硅谷人工智能研究院总监 Adam Coates 在本周举办的 Emtech Digital 大会上这样表示，在会后接受腾讯科技专访时，他表示，百度美国研究院的部分人工智能技术成果，实际上已经应用在了很多产品中。

此外，他还证实了百度即将扩大硅谷研究院规模的消息，新的办公区就在距离目前百度美国研究院不到一英里的位置。

“人数会在目前的基础上再扩大约一倍左右。”Coates 说。目前，百度在美国研究院共有约 200 名员工。

上周，百度首席科学家吴恩达的突然离职，令外界对百度人工智能研究的未来发展产生新的疑问。百度方面宣布，总裁张亚勤将任百度美国研究院董事长，负责百度在美国研发中心的关键人才吸引、品牌建设、以及美研同国内业务的战略协同等方面的事务。

Adam Coates 表示，自己在百度的工作性质并不会发生变化，依然会继续此前的人工智能研究工作。在加入百度之前，他曾跟随吴恩达在斯坦福大学从事人工智能方面的博士后研究。

“在出差到中国时，给我最大的感受是所有事情的变化都非常快，”Coates 说，“和硅谷的节奏完全不同。”

他表示，百度从事人工智能研究的大背景时，对于很多发展中国家来说，移动互联网的发展为人工智能时代铺平了道路。

“如果你在 2017 年第一次连接上互联网，那么你很可能是从移动设备上进行连接的。”Coates 说。

他认为，正是基于人们互联网连接方式的改变，将使得人机交互的方式也在同时发生变化。移动和物联网将变成语音和人工智能的交互。

“在移动互联网时代，我们需要全新的人机交互界面，”Coates 说，“而语音就是我们所认为的能够影响 1 亿人的方式。”

百度硅谷研究院在过去几年开发了 Deep Speech 技术，不同于传统的语音识别系统，Deep Speech 完全运用了深度学习技术，通过成百上千小时的语音数据训练后，实现对语音的识别。

此前，吴恩达在担任百度首席科学家时曾经介绍过 Deep Speech 系统，他表示，过去对于识别不同的语言，需要做相应的针对不同语言的系统，而运用了深度学习技术的 Deep Speech 系统则完全不需要对不同语言进行区别对待。“学习算法的通用性已经可以不用区分不同的语言。”

目前，Deep Speech 已经推出第二代，Adam Coates 表示，这套系统最初全是用英语语音数据进行训练，后来才引入了中文语音数据的训练。

“因为这套系统完全是基于深度学习，完全取决于训练数据，所以我们可以很快地用中文语音数据来替换，并使其成为非常强的中文语音识别引擎。”Coates 说。

他介绍说，这套系统的训练数据很庞大，加入了非常多的口音很重的中国方言数据，而这些数据的训练效果也很好，以至于很多人耳都难以听清的方言语音，系统都能够成功识别出来。

如今，百度的这套主要由美国人工智能研究院所开发的系统，已经成功实现了产品化。去年 10 月，一款名为 TalkType 的手机应用登陆安卓商店，这一应用便是基于 Deep Speech 的技术，是被百度称为第一款真正意义上的“语音优先”的输入方式，而非键盘输入之外的“语音辅助”的输入选择。

Coates 认为，百度以及其他在中国从事人工智能研究的公司的最大优势在于，中国互联网用户很快地接受了移动终端这样的上网方式，无论是普通的收发邮件、浏览网页，甚至是到餐馆就餐，全部能够用移动设备来完成，这些使用习惯与美国用户完全不同，而这些给了例如语音识别等人工智能应用的广泛的应用基础。

专访百度美国研究院总监：语音和人工智能的交互是大趋势