游客

语音交互能否成为不是玩具的产品?

游客 2017-06-09 11:43:39    201013 次浏览

6月6日,苹果发布一系列新产品,最受关注的是它的智能音箱HomePod,名称上它延续了iPod音乐播放器的命名。亚马逊的echo智能音箱是目前的领先产品,据预测2017年销量可能达1000万台。

当下,人们很关注这些设备背后的东西,也就是人工智能。这两款智能音箱的共同点是,它们都是智能音箱和能语音对话的“人工智能助手”的组合:苹果音箱背后是Siri,亚马逊音箱背后是A lexa。这些所谓的人工智能助手设想的使用场景是,我们人类会和机器对话。你可以跟这些音箱说话,让它们干点什么,比如,我们跟苹果音箱说,“嘿,Siri”,就可以启动它。

问题是,你想跟机器聊天吗?我不想。我的iPhone手机有一个功能总是被误按出来,然后发出奇怪的声音:“我听不懂你在说什么”。它就是苹果的智能语音助手Siri。当然,跟朋友说起这个缺点时,她说了另外一种情况,她上小学的儿子总是抢手机玩,用各种二次元语言调戏Siri,玩得不亦乐乎。玩乐性质的人机互动不是新鲜事,玩具公司孩之宝的能人机互动的菲比精灵(Furby)早在1997年就出现,孩子与玩具说话的确会觉得很好玩。

那么,语音交互可以变成一个不是玩具的产品吗?现在,人工智能技术产生最大进展的领域是语音识别与合成、自然语言理解、图像识别和机器翻译等。技术的进步让跟机器对话成为可能,现在它可以听得懂、能理解,它也能模仿我们的语音说话,因而很多人把跟机器对话看成一种人工智能的未来应用场景。

尼葛洛庞帝在20多年前出版的《数字化生存》中,对人机界面有两个预测,一个是手指会成为“图形输入领域的一匹黑马”,一个是声音会成为交互界面。前者已经是我们活在其中的现实,我们现在用的智能手机的核心之一就是多点触动屏幕,当年他很形象地说这是“指上神功”,每个人现在都在手机屏幕上施展着。在我们开车时无法用手操作手机时,在设备本身很小不能容纳一个屏幕时,用声音来操控设备似乎是不错的选择。但这一预言到现在都没有实现,固然有技术的障碍,使用场景的障碍亦是明确存在着。我们很难放弃已经非常熟悉、体验更好、效率更高的屏幕。

有人会说,现在人们不就在跟手机说话吗?我们用微信跟人语音留言,智能手机看起来是很符合语音的场景。在手机上消费音频内容,听音乐、现在听付费知识产品都是自然而然的。但要注意的是,当我们微信语音跟朋友聊天时,我们不是在跟机器说话,而是在跟另一台机器背后的人说话。

不想跟机器说话,并不是它不能理解我们的话,而是因为我们想要的是被当成人对待。机器可能永远无法让我们觉得,我们被像人一样对待。现在,人工智能的应用场景中的两个可能误区是,一是把机器人按人的样子造,也就是所谓的人形机器人,一是让人跟机器说话,也就是这些会说话的人工智能助手。这两种思路的问题是,它们都没有把人当成人来看待。

我们不想跟机器聊天,而只想让机器帮帮忙。我们知道,通过掌握大量的数据,机器比我们还了解自己,机器可以帮我们个性化,可以让工作生活更便利。我们需要的可能是藏在人性化界面的“智能助理”或“智能代理”。智能代理(agent)一直以来是研究者们设想的人工智能使用场景之一。

或许很快,人工智能技术的进步可以做到,每个人手机里面可以有一个这样熟悉我们的喜好、代表我们利益的智能代理。在过去,只有大公司老板才能雇佣精明能干又八面玲珑的助理。未来,每个人都可以有一个。但是,我们跟这个“助理”交流的方式,不一定是跟它说话。我会更期待,我们每次回家打开音箱时,它不是等我们说“嘿”,而是直接就播放了,并且播放适合我们当时心情的音乐。

内容加载中