“我的父亲来自中国,母亲来自日本,我在美国长大,我的丈夫一半法国一半犹太人,”微软杰出科学家 Lili Cheng 介绍她的家庭沟通难题。但她希望的不是用英语或者任何一种语言独裁,“我希望能用母语和每个人沟通,这样在家里才是最自然的。”
微软翻译 (Microsoft Translator) 一个新版本将能够解决这个问题。在旧金山,该公司向包括 PingWest 品玩在内的多家媒体和科技公司展示了已经发布的新版微软翻译:两名用户语音聊天,一人说英语,使用 PC,另一人说法语,使用智能手机,两个人各自的语音可以翻译成对应的语言,在彼此的设备上播放。
从图片中可以看出,这一新版本的界面和传统的翻译软件区别很大,采用了对话的界面——就像微信的群聊一样。
为什么说是群聊?因为对话和翻译的参与者不止两个人:在现场的 demo 中,还有另外两台设备将所有的对话翻译成了希伯来语和日语。不仅如此,该公司全球执行副总裁沈向洋也实时加入到了聊天当中,微软翻译将他的普通话翻译成了其他参与者对应的语言。
怎么参与到一个翻译对话中?不得不说,微软可能从微信那里获得了很多灵感。举个例子,我在异国的酒吧需要和两个分别来自法国和德国朋友聊天:首先,我在手机上选择我的语言并创建一个对话,之后微软翻译就生成了一个 5 位代码和一个二维码,我的法国朋友在他的应用里输入代码,我的德国朋友扫描二维码,填写名字后就可以立刻加入到对话当中,不需要账号登录也不需要加好友,和微信的扫码/雷达/面对面建群一样简单。(下图)
我和微软翻译产品策略总监奥列维·丰塔纳(法语)一起在手机和 PC 上测试了新产品。现场的网络质量不错,语音翻译的速度很快,丰塔纳一句话还没说完,我已经在我的手机上看到了系统翻译和不停地修正文字。
有趣的是,这个对话的设定充分借鉴了 IM 软件的群聊功能,发起者就像群主一样,可以移除或禁言其他参与者,而且当发起者退出时,所有参与者设备上的对话也同时结束——丰塔纳说这个设定出于隐私的考虑。对话结束后,参与者可以选择退出或者保留对话记录(在 PC 上是一个纯文本文档),方便以后使用。
新版本现在已经正式推出,在网页端和 iOS App Store、Windows 10 手机和 Android 应用市场上线,目前语音翻译已经支持包括中文在内的 9 种全球最常使用的语言,另有希伯来语、泰语和日语等数十种支持文字翻译。新版本还有一个“演讲者模式”功能,可以当成建议的会议演讲的同传设备来使用。
丰塔纳对 PingWest 品玩透露,微软为新版翻译开发了一个神经机器翻译系统 (Neural Machine) ,主要由微软 2015 年推出的 ResNet 深度神经网络和 LSTM(长短时记忆单元)技术两部分组成,分别负责文字语音识别和不同语言之间的转换,整个系统运行在 Azure 云计算平台上。丰塔纳指出,相较于过去微软以及各公司使用的统计机器 (statistical machine) 翻译,神经机器翻译的结果更准确,更接近自然语言,方便理解。
让机器给人的交互感觉和人与人之间的交流越来越接近,是微软近年来主推的技术方向。从底层技术上,微软将微软研究院、亚研等过去相对分离的研究力量整合成了人工智能和研究事业群 (AI & Research Group),进一步加深深度神经网络等各种人工智能底层技术的整合并加快技术投入生产的节奏。从实现形式上,微软开始推动“对话式 AI”的理念。包括小冰、微软翻译、Skype 聊天机器人等,都是该公司为了实现这一理念所推出的产品。
翻译是不同语言之间的人类交流必经的流程步骤,但也正因此,在过去大部分翻译软件都被定义为工具。然而实际上,翻译的目的不是翻译而是沟通。将翻译工具转变成对话式的界面,让翻译服务于沟通,而不是作为工具,新版微软翻译在这一点上做的很有心意。