新浪科技讯 7月11日上午消息,2017中国互联网大会在北京国家会议中心拉开帷幕,为期三天。翻译研发科学家高勤详尽讲述了谷歌翻译最近一年取得的最新进展,主要在于利用机器学习消除语言障碍。
高勤表示,谷歌翻译现在提供超过100种语言互通,覆盖全球99%的网民,每天提供超过10亿次的翻译,大约相当于100万本书的文本总量。月度活跃用户超过10亿人次,其中95%来自于美国以外地区。在技术层面,谷歌利用机器学习带来了许多全新的翻译体验,例如利用手机摄像头做的即时翻译,利用手机麦克风和扬声器进行即时对话翻译,离线翻译的支持为没有数据服务的旅行者提供帮助。
在翻译质量方面,谷歌基于神经网络机器翻译技术在翻译的流畅度和准确性上进行了的提升。高勤认为,神经网络相对于传统技术是一种革命性的改变,能够获得连续的、全局的决策信息。
“传统的翻译技术,基于短语的统计机器翻译是拼图过程,通过对短语对的排列和组合,尝试找出较好的翻译选项,而整个决策过程是离散的,而支持这个决策的信息也都是局部的。而神经网络机器学习是反其道而行之,做每一步翻译过程中可以利用云语言与目标语言所有信息,使整个决策过程既是连续也是全局的。
高勤表示,2015年最初预计完成项目计划要花三年时间,但基于TensorFlow平台,在2016年11月针对16个语言的机器翻译能力基本实现。这其中,多语言模型使200个模型的训练与维护成为可能。
所谓多语言模型是指用同一套神经网络学习多种语言的互相翻译。如将英语、西班牙语、韩语放在同一个翻译模型中进行翻译。具体的实现方式:“将我们想要翻译的目标语言代码通过特殊符号形式告诉神经网络,神经网络就可以处理多种语言的翻译。如,要翻译到日语,只需要在原语言前加入2ja 简单符号。通过这样处理的多语言简单符号,很多情况下其性能超过单语言情况。”
高勤表示,在谷歌翻译的实践过程中,发现神经网络内部对多种语言的表示具有一定的普适性。“当我们对多语言模型、神经网络内部对多语言中意义相近的句子向量表示进行多维空间投影,发现意义相近的句子投影到相邻区域”。(侯迪憬)
以下为谷歌翻译研发科学家高勤的演讲全文:
高勤:各位好,非常荣幸今天能够在这里代表谷歌为大家报告谷歌翻译最近一年取得的进展。谷歌翻译的目标是利用机器学习消除语言障碍。
首先回顾一下11年前谷歌推出谷歌翻译的原因。
在今天的互联网上,仍然有50%的内容为英文,而全球只有20%的世界人口能够掌握某种程度的英语,同时中文和其他语言的互联网内容也在迅速增加,我们也要看到许多使用人数众多的语言,例如印第语、阿拉伯语等在世界互联网上所占比例仍然非常少。谷歌的使命是“为了让世界能够方便地获取信息”,因此我们需要快速、准确、方便地机器翻译。
经过11年的发展,谷歌翻译已经成为一个全球性的产品,目前我们提供超过100种语言,覆盖全球99%的网民,每天我们提供超过10亿次的翻译,大约相当于100万本书的文本总量。月度活跃用户超过10亿人次,其中95%来自于美国以外地区。
随着互联网大潮的到来,谷歌利用机器学习带来了许多全新的翻译体验,例如利用手机摄像头做的即时翻译,利用手机麦克风和扬声器进行即时对话翻译,离线翻译的支持为没有数据服务的旅行者提供很大的帮助。
翻译质量一直是谷歌翻译所关注的焦点,在近十年以来,谷歌翻译一直致力于翻译质量的提升,一直处于业界领先地位,特别是最近一年以来,谷歌翻译的质量有了长足的提升,一年前谷歌翻译结果和现在谷歌翻译结果,无论从流畅度和准确性上都有了巨大的提升。是什么为我们带来了如此巨大的提升呢?这也是今天我们所要着重讨论的神经网络机器翻译技术。
总体看一看翻译质量使用神经网络机器翻译之后的情形,对非专业人工翻译,对神经网络机器翻译、短语机器翻译进行评测,6分代表完美翻译,0分代表完全不可读的翻译。神经网络机器翻译和非专业人工翻译已经相当接近,对于英中、中英翻译也取得最大的提升。
神经网络相对于传统技术是一种革命性的改变。基于短语的统计机器翻译是拼图过程,通过对短语对的排列和组合,尝试找出较好的翻译选项,而整个决策过程是离散的,而支持这个决策的信息也都是局部的。神经网络机器学习这反其道而行之,做每一步翻译过程中可以利用云语言与目标语言所有信息,使整个决策过程既是连续也是全局的。
神经网络机器翻译相对传统技术的巨大优势,Like这个英文词,将被翻译到中文“像”“一样”的词组,这两个词根距离是非常长的,对于传统机器翻译技术来说,这样的关系非常难解决,英语复杂程序结构带来了很多调序以及省略,如果不能够利用整个云语言句子全局信息,我们就会得到一种不连续、不自然、不准确的结果。而神经网络机器翻译在这两方面都有了长足进步,这一点已经在各种研究中得到了证实。然而从一个实验室研究结果到服务10亿人的产品,其中仍有很长的路要走。
在我们设定项目计划时,预期要花三年时间来完成这个发布。实际发布时间超乎我们意料,2015年9月,我们项目开始基于TensorFlow,2016年2月获得首个产品规模模型,2016年11月总计16个语言对上线自此神经网络机器翻译初具规模。上个月超过50%的流量采用神经网络翻译。什么让我们在计划初期设定一个相对保守的目标呢?神经网络虽然拥有强大的表达能力,也需要极大的计算量,我们获得第一个产品化模型时,迅速单个模型需要2-3周时间,并且每次训练需要超过100块GPU,在进行翻译时,翻译20个次的句子需要超过10秒时间,模型数量超过200个。这样一种情况,使得让这个产品上线变得非常困难。这个时候,谷歌在机器学习软硬件上的全面布局,为我们弹药库提供了充足弹药。当我们致力于提升数据和吞吐量的时候,谷歌张量处理器诞生。高度优化的代码,使得我们为数亿用户提供快速的翻译服务成为可能。
面对200个模型的训练与维护,对于我们来说仍然是极为繁重的任务。因此,我们将目光投向多语言模型。所谓多语言模型是指用同一套神经网络学习多种语言的互相翻译。如,可以将英语、西班牙语、韩语放在同一个翻译模型中进行翻译。我们发现,实现多语言模型的机器翻译其方法可以非常简单,只需要将我们想要翻译的目标语言代码通过特殊符号形式告诉神经网络,神经网络就可以处理多种语言的翻译。如,要翻译到日语,只需要在原语言前加入2ja 简单符号。通过这样处理的多语言简单符号,很多情况下其性能超过单语言情况。
零数据翻译,这个模型中,使用英语到日语、英语到韩语、日语到英语和韩语到英语的训练数据,但并没有任何日语和韩语之间的翻译数据,日语到韩语和韩语到日语翻译是零数据的任务。多语言模型可以非常好地处理日语到韩语和韩语到日语的处理,无需通过英语中转就可以实现两者非英语语言的翻译,这为未来统一构建统一翻译模型提供了可能性。
当我们对多语言模型、神经网络内部对多语言中意义相近的句子向量表示进行多维空间投影,发现意义相近的句子投影到相邻区域,这表明神经网络内部对多种语言的表示具有一定的普适性。是否代表我们找到了一种能够代表多种语言的通用语呢?现在还不能确定。我认为还需要进一步研究。
总结,利用TPU、张量处理器以及谷歌在机器翻译上多年的积累,我们成功在较短时间内发布了神经网络机器翻译模型,并且这个模型取得巨大成功。谷歌翻译在各个市场的使用量都得到了极大的提升。同时这一模型的发布,也使得业界和研究界掀起了一股机器翻译研究的热潮。据统计,去年一年时间内,有200篇关于神经网络机器翻译的论文被发表,但这并不代表着神经网络机器翻译已经非常成熟,事实上我们发现经过过去一年的研究,我们对神经网络机器翻译的认识仍然非常肤浅。下一步,我们将继续致力于改进数字、日期、姓名、品牌以及不常见短语翻译,同时进一步研究新的模型结构与训练方法。最近谷歌大脑刚刚发布的完全基于注意力模型的新的模型结构。我们认为神经网络机器翻译仅仅是初露锋芒,往往没有达到性能的极限,因此未来我们会继续投入,希望神经网络机器翻译能够为构建一个无障碍的、跨语言的交流环境作出自己的贡献。
非常感谢大家!