游客

智能音箱能否在中国普及?取决于计算机何时学会中文

游客 2017-07-25 19:21:07    201056 次浏览
智能音箱能否在中国普及?取决于计算机何时学会中文图片来自:MIT Technology Review

新浪科技讯 北京时间7月25日晚间消息,国外媒体今日发表文章称,和均推出了自己的智能语音助手,但这些产品能否像Echo在美国那样普及,还要取决于计算机对中文的理解程度。

研究人员把2017年称为中国的“对话式计算机年”。随着语音识别和自然语言处理技术的发展,中国互联网巨头阿里巴巴和百度均在开发相应的技术来攻克语音通信。如今,这两家公司均推出了自己的语音产品。

与亚马逊Echo类似,阿里巴巴也推出了智能音箱“天猫精灵”和AliGenie平台。利用这些产品,消费者可以通过语音命令来在线下单、查询天气、播放音乐,以及控制家里的其他智能设备。

百度的“度秘OS”(DuerOS)是一款对话式人工智能操作系统,已被用于家庭机器人、机顶盒和智能手机等领域。它的功能与AliGenie和其他语音助手类似,还能与用户进行随机聊天。百度表示,度秘OS开发工具包已接到大量订单。

百度度秘(Duer)业务部门总经理景鲲预计,今年还将有更多企业进入该市场。这在一定程度上得益于亚马逊Echo在美国市场所取得的巨大成功,从而引发了中国科技投资者的兴趣。

调研公司IDC预计,到2020年,对话式人工智能在中国智能车载领域的渗透率将达到51%,在手机与可穿戴设备领域的渗透率将达到68%。景鲲称,正如触摸屏让人机交互变得更容易,对话式接口将使人机交互变得更自然,从而吸引更多人走进联网世界。

对于中国消费者而言,语音计算是一个很好的选择。当前,中国消费者主要使用拼音输入法进行汉字输入。但是,汉语拼音有四种音调,每个音调代表不同的汉字。因此,在打字时,消费者不得不选择自己想要的文字。例如,用拼音输入法打“yi”时,会出现60多个常用汉字选项。虽然一些输入法会根据上下文优先显示一些汉字,但也并不是特别准确。为此,像微信一些应用推出了语音功能,也就不足为奇了。

当前,中国的语音助手技术将用户的语音命令转换为文本,然后再根据文本含义做出反应。对于一些基于任务的命令,如查看天气或查阅某个汉字的英文表达法,这种语音处理技术还比较奏效。但是,如果涉及到多个主题的反反复复地对话,这种处理方式就显得无能为力了。

解决对话式计算需要克服汉语的一些复杂性。例如,对于中文,同样的汉字,以不同的顺序出现,其含义也不同。有时,即使按照同样的顺序出现,根据前后文,也会出现不同的含义。此外,与英文句子各单词之间有空格不同,中文句子各个汉字之间并没有间隔。为此,中文自然语言处理研究人员必须要教会他们的算法在哪里断句,从而正确地理解句子含义。

另外,与英语不同,中文并没有动词时态一说,这又为计算机理解中文含义增加了难度。其他一些挑战还包括,中国有大量的方言,有些很难理解。同样的表达方法,在不同的语境下,也会有不同的含义。

清华大学副教授吴志勇称,计算机要想真正理解人类语言,还必须要找出一些微妙的线索,如语调和重音等。此外,清华大学另一位副教授贾嘉(音译,Jia Jia)认为,计算机还要了解人类情绪,因为人类作决策时并不完全依靠逻辑。

为了让系统更智能,百度今年还在自己的平台上推出了“培训师”(trainer)模式,允许软件开发人员通过一个内置的注释机器人实时共享语言数据。该机器人接收开发者的反馈后,会进行学习,然后对系统进行纠正。

中国的研究人员在解决计算机理解中文时也有一个优势,那就是拥有大量的数据。当前,计算机理解语言依靠的是神经网络,而该神经网络需要大量的数据来训练。用来训练的数据量越大,神经网络就越智能。

阿里巴巴和腾讯拥有庞大的用户群,因此也就掌握了大量的数据。截至去年年底,百度声称拥有6.65亿月活跃用户。而截至今年3月底,阿里巴巴拥有5.07亿移动月活跃用户。

但阿里巴巴人工智能实验室研究员王刚称,要想让计算机学习语言时更有效率,研究人员必须要设计出不需要大量数据的神经网络。在现实世界中,人们会以不同的方式表达同一含义。要把每一种表达方式都教给计算机,那是不可能的。在之前的研究中,王刚及其同事开发出了一种新方法,能让计算机以很少的数据理解一件事物。

例如,要训练一个神经网络理解运动医学方面的词汇,那就只需提供运动方面的数据和医学方面的数据。但王刚同时指出,与常规方法相比,这种方法的效果并不是特别理想。但是,在数据量有限的情况下,这种方法就特别实用。

机器人创业公司“小鱼在家”(ainemo)创始人宋晨枫认为,智能语音助手要想在中国市场取得成功,最终还是要依靠内容和服务。他表示,小鱼在家将为自己的家庭助手开发教育和医疗内容。小鱼在家使用的是百度的度秘OS,宋晨枫称,对于那些不方便通过电脑和智能手机接入互联网的消费者,如年长者和年幼者,语音是为他们提供内容的有效方式。(李明)

内容加载中