Google今天宣布发布Google神经网路机器翻译系统(Google Neural Machine Translation),简称GNMT,使用当前最先进的训练技术,能够实现到迄今为止机器翻译质量的最大提升。
机器语言翻译早已有之,而十年前Google推出的Google Translate带来了全新突破,其背后的核心算法是基于短语的机器翻译。
在那之后,机器智能的快速发展大大推动了语音识别和图像识别的提升,但改进机器翻译、使之尽量接近人工翻译,依然充满挑战。
几年之前,Google就开始使用循环神经网络来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射。
基于短语的机器学习会将输入句子分解成词和短语,然后对其中的大部分进行独立翻译。
神经网络机器翻译则将整个输入句子视作翻译的基本单元,优点是所需调整更少,很快就在中等规模的公共基准数据集上达到了与基于短语的翻译系统不相上下的准确度。
此后研究者不断改进神经网络机器翻译系统,比如模拟外部对准模型来处理罕见词 ,使用“注意(attention)”来对准输入词和输出词,以及将词分解成更小的单元以应对罕见词。
如今,神经网络机器翻译系统已经克服了超大型数据集上的许多挑战,在翻译速度和准确度上都已足够为用户带来更好的服务,比如英语和法语、英语和西班牙语的互译翻译质量已经达到90%左右,中英互译也在80%上下。
这则动图就展示了Google神经网络机器翻译系统将一个中文句子翻译成英语句子的过程。
首先,该网络将这句中文的词编码成一个向量列表,其中每个向量都表示了到目前为止所有被读取到的词的含义(编码器Encoder)。一旦读取完整个句子,解码器就开始工作,一次生成英语句子的一个词(解码器Decoder)。
为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关编码的中文向量的权重分布(注意“Attention”;蓝色连线的透明度表示解码器对一个被编码的词的注意程度)。
在双语评估者的帮助下,通过在维基百科和新闻网站的例句测定,Google发现:在多个样本的翻译中,神经网络机器翻译系统将误差降低了55-85%甚至更多。
特别地,Google神经网络机器翻译系统已经投入到一个非常困难的中英语言对翻译中。
现在,移动版和网页版的Google Translate 的中英翻译已经开始完全使用神经网络机器翻译系统,每天处理大约1800万条翻译,未来几个月还会扩展到更多的语言对上。
当然,机器翻译仍然不可能做到完美,Google神经网络机器翻译系统也会犯一些人类译者永远不会出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或上下文。
无论如何,Google神经网络机器翻译系统仍然代表着一个重大的里程碑。