一位女性正使用iPhone在上海街头打电话
凤凰科技讯 北京时间3月10日消息,据路透社报道,随着谷歌助理(Google Assistant)上周开始大范围登陆Android设备,语音助手行业的竞争进入白热化。现在,苹果、亚马逊、微软以及谷歌都在提供能够接受用户指令的虚拟助手。
苹果Siri是推出时间最长的语音助手。艾伦人工智能研究所(Allen Institute for Artificial Intelligence) CEO奥伦·奥奇奥尼(Oren Etzioni)等研究人员表示,在理解语音和回答问题上,Siri挥霍了它的领先优势。
但是,Siri至少能够做到一项其他语音助手无法做到的事情:能够识别36个国家的21种本地语言。鉴于多数智能机是在美国以外的市场销售,这是一项十分重要的能力。
相比之下,微软“小娜”只能够识别13个国家的8种语言。谷歌助理能够识别4种语言,它最初只应用于Pixel手机,现在已经扩大到了其他Android设备上。亚马逊的Alexa只能识别英语和德语。Siri将很快开始学习上海话,后者是一种只在上海周边说的特殊吴语方言。
语言障碍
语音助手要想成为操作智能机和其它设备的普遍使用工具,仍需要清除语言问题等障碍。对于任何一款语音助手来说,说一口地道方言是一件复杂的事情。例如,如果有人在英国询问足球赛比分,即便说的是英语,但是语音助手也必须知道回答“two-nil”(2:0),而不是“two-nothing”(2:0)。
在微软,一支由29人组成的编辑团队正在针对当地市场对小娜进行定制化。谷歌和亚马逊表示,他们计划为各自语音助手引入更多语言,但拒绝进一步置评。
苹果语言团队主管亚历克斯·阿切洛(Alex Acero)表示,公司已开始为Siri训练新的语言。苹果首先让人读取短文,其中夹杂着口音和方言,然后进行人工转录,这样计算机就拥有了一个可以进行学习的具体语音范本。苹果还从许多声音中捕捉到了各种语音,从而借助声学模型来预测言语顺序。
阿切洛称,苹果还在新语言中部署了“听写模式”,也就是文本转语音翻译器。当用户使用听写模式时,苹果会捕捉到较小比重的音频录音,然后对它们进行匿名处理。人类将对录音以及背景噪音、模糊话音进行转录,这一过程可协助将语音识别错误率降低一半。
他表示,当苹果收集到足够数据,并且配音演员完成新语言的录制后,他们就会开放Siri,回答公司预计的用户最常问问题。当Siri开始接受新语言后,它就会从用户的实际问题中学习到更多,每两周就会更新一次,作出更多调整。
不过,智能助手Ozlo创始人查尔斯·乔利(Charles Jolley)表示,为语音助手撰写脚本无法做到规模化。“你无法聘请足够的作者为每一种语言撰写需要的脚本,你必须对这些答案进行整合,”他表示,这还需要多年时间。
三星在去年收购了“Siri之父”创建的语音助手Viv,后者的创始人正在着手解决语言训练问题。“Viv旨在专门解决智能助理的规模化问题,”Viv联合创始人兼CEO戴格·吉特劳斯(Dag Kittlaus)表示,“当前的语音助手存在功能限制,迈过这一限制的唯一方式就是开放系统,让世界来教它。”(编译/箫雨)