文/腾讯科技韩依民
2017 年 5 月 2 日,腾讯宣布任命语音识别技术顶级专家俞栋博士为 AI Lab(人工智能实验室)副主任,并成立美国西雅图 AI 实验室。
俞栋博士将负责西雅图 AI 实验室的运营及管理,推动腾讯在语音识别及自然语言理解等 AI 领域的基础研究。
这是近段时间以来,腾讯在人工智能领域的第三个大动作。
一个多月前的 3 月 19 日,由腾讯 AI Lab 研发的围棋 AI 绝艺,在日本 UEC 杯围棋大赛中夺得冠军。这是低调运行近一年后,腾讯 AI Lab 首次对外展示研究成果。
绝艺团队参加 UEC 比赛时
就在绝艺夺冠后不久,3 月 23 日,腾讯宣布任命人工智能领域顶尖科学家张潼博士担任腾讯 AI Lab(腾讯人工智能实验室)主任。
而今天,又一位大将加入了腾讯人工智能的阵营。
对于俞栋的加入,腾讯 AI Lab 主任张潼博士表示,“俞栋博士是语音识别与深度学习领域的专家。我们很高兴能邀请到俞博士加入腾讯 AI Lab,相信他的到来将极大提升腾讯 AI 的技术实力。我们希望腾讯 AI Lab 不仅是一个实验室,还是一个连接器,通过将全球的优秀人才连接在一起,不断推动 AI 的基础研究及在更多场景的应用落地,让 AI 无处不在。”
腾讯 AI Lab 副主任俞栋博士表示:“我很高兴能加入腾讯 AI Lab。在过去十多年里,腾讯积累了丰富的应用场景、海量数据、强大的计算能力和一流的科技人才,这些都是开展 AI 深度研究与应用的重要基础,也是吸引全球人才的重要原因。我相信,随着西雅图 AI 实验室的成立,未来将会有更多的一流人才加入腾讯 AI Lab,共同推动全球 AI 技术的发展。”
在国际语音识别研究界,俞栋是一个无法忽视的名字。
加入腾讯前,俞栋担任美国微软研究院语音和对话组(Speech and Dialog Group)首席研究员,并兼任浙江大学兼职教授、中科大客座教授、及上海交通大学客座研究员。
俞栋博士与 George Dahl 博士、邓力博士等共同研发的上下文相关深层神经网络-隐马尔科夫模型(CD-DNN-HMM)是深度学习技术在大词汇量语音识别任务上的首次成功应用,他们的这项突破性工作,曾获 2013 年 IEEE 信号处理协会(IEEE SPS)最佳论文奖,引起了大词汇量语音识别研究方向的转变,极大地推动了语音识别技术的发展。
同时,近年来腾讯也在不断加大对人工智能领域的投入。2016 年 4 月,腾讯 AI Lab 成立,总部位于深圳。作为腾讯公司级 AI 实验室,AI Lab 专注于基础研究和应用探索的结合,致力于提升 AI 决策、理解及创造能力,并为腾讯各个产品及业务提供 AI 技术支持。
腾讯 AI Lab 由机器学习和大数据领域专家张潼博士领导,现有 50 多位世界知名院校的 AI 科学家(90% 为博士)与 200 多位应用工程师。作为语音识别技术方向的顶级专家,俞栋的加入意味着腾讯在人工智能上的布局将进一步向基础研究方向延伸。
在俞栋加入腾讯之际,我们对他进行了专访,在了解这位腾讯美国西雅图 AI 实验负责人的同时,也期一窥腾讯在人工智能布局上的更多拼图。
一把名叫 AI 的钥匙
当下人工智能热潮席卷全球工业界,语音识别是其中最有可能成为第一个诞生大众级应用的技术,这离不开语音识别在基础研究上取得的进步,而俞栋是相关研究能够获得突破性进展的关键人物。
2011 年夏末秋初的 8 月 28 号,来自世界各地的专家学者齐聚意大利佛罗伦萨,接下来三天,由国际语音通信协会(ISCA)组织的第 12 次年会(Interspeech 2011)将在这个文艺复兴发祥地举行。
作为语音领域最重要的两个国际会议之一(另一个为 ICASSP),每年的 Interspeech 都会吸引来自学术界和工业界的从业人员参加,在大会上围绕语音领域的最新技术和研究方向进行交流。
大会进行到第二天,一篇名为《Conversational Speech Transcription Using Context-Dependent Deep Neural Networks》(使用上下文相关深层神经网络进行交谈语音转写)的论文发表,并迅速引起了科研界的高度重视。
论文提出了基于人工神经网络的语音识别新方法,实验结果显示,新方法大幅降低了语音识别的错误率。这意味着,曾于 20 世纪 80 年代末掀起热潮并最终沉寂下去的人工神经网络被再次引入语音识别研究领域,开启了语音识别的深度学习时代。
俞栋正是这一成果的主要研究人员。
俞栋
2011 年距今日人工智能热潮第三次兴起尚有六年,人工神经网络在学术界几经起落,彼时并不被看好。
俞栋对腾讯科技回想起当时的情景,仍颇有感慨:“这项工作(将深度学习的方法引入语音识别领域)一开始受到很多怀疑,很多同事或者朋友都经历过 80 年代末 90 年代初,神经网络从高潮跌落到低潮的过程,所以他们都对此有一定的怀疑。”
但俞栋及其团队开辟的新方法用实际成果回应了质疑,“基本上两年之内,很多公司重复了我们的工作,发现确实对识别率有很大帮助,很快变成行业标准。但在我们这项工作之前,这类论文发表其实有一定困难,但是两年之后,变成没用深度学习技术就很难发文章了,反过来了。”
深度学习的钥匙打开了语音识别研究的新大门,进入深度学习时代后,语音识别也在不断取得突破。
2016 年 9 月中旬,微软报告了在语音识别方面取得的新里程碑:在 Switchboard 这一电话交谈基准测试集上新系统的识别词错率降至 6.3%;一个月后,微软又公布了在这一基准测试集上成功实现了历史性突破:他们的语音识别系统词错率(WER)和专业转录员相当甚至更低,达到 5.9%。
数据背后的意义是,语音识别的识别率在近场上已经可以做到超过实用的门槛,在很多应用场景里可以应用。比如微信里面的语音转文字、语音输入法以及各类 APP 的语音输入框等。
在实际应用层面,语音输入已经成为许多 APP 必备的一项功能;但在研究层面,语音识别仍有许多留待攻克的难点。
俞栋介绍,当下更困难环境下比如远场、高噪音、或带口音的语音识别是仍需解决的问题;自适应方法(adaptation)也是重要的研究方向。
身处语音领域最前沿,俞栋的研究重点在往更深的层次走。而在加入腾讯 AI Lab 之后,俞栋也将带领团队主攻远场语音识别以及自然语言理解两个方向。在腾讯 AI Lab 的人工智能布局中,由俞栋带领的 AI Lab 西雅图实验室,将是另一个主场。
来自腾讯的邀约
作为最早把深度学习技术应用于语音识别领域的研究者之一,俞栋已经是语音识别和深度学习方向的顶级专家,出版了两本专著,发表了 160 多篇论文,是 60 项专利的发明人及深度学习开源软件 CNTK 的发起人和主要作者之一。曾获 2013 年和 2016 年 IEEE 信号处理协会最佳论文奖。现担任 IEEE 语音语言处理专业委员会委员,曾担任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。
2016 年,俞栋与微软研究院同事邓力合著的《解析深度学习——语音识别实践》在国内出版,首次专门讲述了如何将深度学习方法,特别是深层神经网络(DNN)技术应用于语音识别(ASR)领域。
1998 年即加入微软公司的俞栋,见证了翡翠之城如何在硅谷之外崛起成为美国人工智能研究集聚地的过程。
总部位于西雅图的老牌 IT 巨头微软从早期就开始对人工智能有比较大的投入,培养了众多在人工智能方面比较有经验的人才,如今微软旗下的人工智能及研究院事业群已经拥有五六千人,这是一个巨大的人才库。
微软的投入在几年前逐渐吸引了包括谷歌、Facebook、苹果在内的科技巨头到西雅图设立大规模的研发中心。如今,总部同样位于西雅图的亚马逊也建立了超过一千人的人工智能团队。
众多科技巨头扎堆下,西雅图对人才的吸引力越来越强,人才集聚效应使得很多专业人才都从硅谷或其他的地方转到西雅图,如今西雅图每年的流入人口非常大。
身为国际顶级语音研究专家,向俞栋伸去的橄榄枝为数众多,选择加入腾讯之前已经有很多公司找过来,却并未打动他。
俞栋最终选择腾讯,是因为它具备开展语音识别研究的有利条件。
俞栋对腾讯科技介绍,选择加入腾讯有几个原因,第一,语音识别必须有大数据来源,必须有大运算能力,必须有出口形成反馈机制进而优化产品,即一定要有落地的场景。第二自己偏好研究,喜欢解决一些有挑战性的问题,其他的一些公司各有利弊,比如有产品但是缺研究。而俞栋看重的这些条件,“腾讯都能够满足。”对俞栋而言,腾讯具备开展语音识别研究的有利条件。
不设 KPI 的西雅图实验室
腾讯打造一流 AI 实验室的决心,西雅图在人工智能上的人才储备,及俞栋的最终加入,让西雅图 AI 实验室的建立变得水到渠成,而这个实验室没有 KPI。
没有 KPI 的原因与西雅图实验室的定位有关。
2016 年 4 月,腾讯成立 AI Lab(腾讯人工智能实验室),致力于人工智能基础科学的开放研究,以及应用领域的深入探索,做到“学术有影响,工业有产出”。
目前实验室有 50 余位世界知名学院的 AI 科学家(90% 为博士)、及 200 多位经验丰富的工程师进行基础研究与应用探索。
AI Lab 聚焦四大领域的基础研究,包括:计算机视觉、语音识别、自然语言处理与机器学习,力求全面覆盖,并深层次拓展 AI 的前沿技术能力。同时发展 AI 在具有腾讯特色的四大业务场景中的应用能力:内容 AI、社交 AI、游戏 AI 和平台工具 AI。
腾讯 AI Lab 研究方向
俞栋介绍,在腾讯 AI Lab 的研究体系中,美国西雅图 AI 实验室将承担一些语音识别和 NLP 的基础和前沿研究工作,并试图解决这些领域更困难的问题,位于深圳的 AI Lab 则将继续基础研究 快速应用的结合,把在四大领域的研究和技术比较快的应用到实际场景中。
简单来说可以概括为,西雅图实验室专注于基础研究,深圳总部的团队还需兼顾应用研究。但实际上在基础研究和应用研究之间没有非常严格的界限,有时很难说清楚一个东西是属于基础还是应用,比如基础研究团队如果把某一项技术里的关键问题直接解决,那么它就可以立刻应用到产品里面,但这些问题一般来说会比较难,因此很难预测它什么时候能解决。
由此,西雅图实验室进展的确定性没有那么强,这意味着需要投入更多耐心,需要激发更多新颖的想法和算法。
在语音识别做了二十多年研究的俞栋深刻了解做基础研究需要的耐心和投入,而在与腾讯方面进行了多次沟通后,在长期耐心投入研究上内部也形成了共识。
“如果要在技术研究上取得突破,确实需要有一定耐心,相对来说长期稳定的投入,西雅图这边基本上秉持这样的理念。我们希望长远来讲,能够创新性地攻克关键的、主要的技术难题,在真实应用场景里有很大的性能提升。但是因为我们没有办法预测到底哪天能成功,我们希望在每一个阶段都会有一些进步,这是我们唯一可以定义的一些进步,但是这个进步会有多大,也是没有办法比较明确说出来的。”
多年的研究生涯让俞栋养成了缜密的说话风格,采访中,对于人工智能相关技术的问题,俞栋的回答都非常严谨,在给出结论前,会将原因及各类影响因素阐述清楚。
但在语音识别研究与腾讯业务可能的结合点上,俞栋的判断非常乐观:物联网、游戏、微信、QQ 等,都有很多业务场景用到语音识别,而语义理解与腾讯社交应用的关系会更大。
如今西雅图实验室刚刚成立,作为实验室负责人,俞栋当前的主要工作是招揽人才搭建团队。
俞栋希望能建立一个 20 人左右的团队,招徕有一定研究能力的人才,“研究人员能力和潜力两个部分我们都会注意,现在在通过各种渠道去发现合适的人才来加入。”
接下来,俞栋就要带领更偏向于研究、更接近于美国大公司研究院性质的西雅图实验室在语音识别和语义理解研究上继续探索了。这是一项需要长期坚定投入的工作,但已经做了二十多年研究的俞栋以及腾讯已经有了充分准备。
“我们有耐心。”