語音交互能否成爲不是玩具的產品？

6月6日，苹果发布一系列新产品，最受关注的是它的智能音箱HomePod，名称上它延续了iPod音乐播放器的命名。亚马逊的echo智能音箱是目前的领先产品，据预测2017年销量可能达1000万台。

当下，人们很关注这些设备背后的东西，也就是人工智能。这两款智能音箱的共同点是，它们都是智能音箱和能语音对话的“人工智能助手”的组合：苹果音箱背后是Siri，亚马逊音箱背后是A lexa。这些所谓的人工智能助手设想的使用场景是，我们人类会和机器对话。你可以跟这些音箱说话，让它们干点什么，比如，我们跟苹果音箱说，“嘿，Siri”，就可以启动它。

问题是，你想跟机器聊天吗？我不想。我的iPhone手机有一个功能总是被误按出来，然后发出奇怪的声音：“我听不懂你在说什么”。它就是苹果的智能语音助手Siri。当然，跟朋友说起这个缺点时，她说了另外一种情况，她上小学的儿子总是抢手机玩，用各种二次元语言调戏Siri，玩得不亦乐乎。玩乐性质的人机互动不是新鲜事，玩具公司孩之宝的能人机互动的菲比精灵(Furby)早在1997年就出现，孩子与玩具说话的确会觉得很好玩。

那么，语音交互可以变成一个不是玩具的产品吗？现在，人工智能技术产生最大进展的领域是语音识别与合成、自然语言理解、图像识别和机器翻译等。技术的进步让跟机器对话成为可能，现在它可以听得懂、能理解，它也能模仿我们的语音说话，因而很多人把跟机器对话看成一种人工智能的未来应用场景。

尼葛洛庞帝在20多年前出版的《数字化生存》中，对人机界面有两个预测，一个是手指会成为“图形输入领域的一匹黑马”，一个是声音会成为交互界面。前者已经是我们活在其中的现实，我们现在用的智能手机的核心之一就是多点触动屏幕，当年他很形象地说这是“指上神功”，每个人现在都在手机屏幕上施展着。在我们开车时无法用手操作手机时，在设备本身很小不能容纳一个屏幕时，用声音来操控设备似乎是不错的选择。但这一预言到现在都没有实现，固然有技术的障碍，使用场景的障碍亦是明确存在着。我们很难放弃已经非常熟悉、体验更好、效率更高的屏幕。

有人会说，现在人们不就在跟手机说话吗？我们用微信跟人语音留言，智能手机看起来是很符合语音的场景。在手机上消费音频内容，听音乐、现在听付费知识产品都是自然而然的。但要注意的是，当我们微信语音跟朋友聊天时，我们不是在跟机器说话，而是在跟另一台机器背后的人说话。

不想跟机器说话，并不是它不能理解我们的话，而是因为我们想要的是被当成人对待。机器可能永远无法让我们觉得，我们被像人一样对待。现在，人工智能的应用场景中的两个可能误区是，一是把机器人按人的样子造，也就是所谓的人形机器人，一是让人跟机器说话，也就是这些会说话的人工智能助手。这两种思路的问题是，它们都没有把人当成人来看待。

我们不想跟机器聊天，而只想让机器帮帮忙。我们知道，通过掌握大量的数据，机器比我们还了解自己，机器可以帮我们个性化，可以让工作生活更便利。我们需要的可能是藏在人性化界面的“智能助理”或“智能代理”。智能代理(agent)一直以来是研究者们设想的人工智能使用场景之一。

或许很快，人工智能技术的进步可以做到，每个人手机里面可以有一个这样熟悉我们的喜好、代表我们利益的智能代理。在过去，只有大公司老板才能雇佣精明能干又八面玲珑的助理。未来，每个人都可以有一个。但是，我们跟这个“助理”交流的方式，不一定是跟它说话。我会更期待，我们每次回家打开音箱时，它不是等我们说“嘿”，而是直接就播放了，并且播放适合我们当时心情的音乐。

语音交互能否成为不是玩具的产品？

相关推荐