本月初(10 月 5 号),Google 举行了自己的硬件发布会。除了硬件,整场最大的亮点非 Google Assistant 莫属。究竟互联网巨头自己是怎么看人工智能的?又是如何来推进人工智能的?
BackChannel 作者 Steven Levy 就在采访了 Google 内部的科学家之后为我们贡献了一个极度贴近而又鲜活的“视角”。原文标题为《The Google Assistant needs you》。本文为整体编译,在尽量保持作者原貌的情况下,做了部分删减。
Google 的科学家认为基于人工智能的“虚拟私人助理”,将成为“搜索功能”之后最重要的东西。欢迎你加入到这次变革中来。
时间回到 Google 在美国旧金山那场重要硬件发布会的第二天。在昨天的发布会上, Google 刚刚正式发布了一台新手机 Google Pixel(针对 iPhone)和一个通过语音指令激活的音箱 Google Home(对 Amazon Echo 的一记重击)。目前来看它们都口碑都很好,对于即将来到的 Pixel 手机评测,已经有人表示出了热爱。
但在 Google 山景城大本营的一间会议室里,我见到了 Google 内部领导自然语言识别的 Fernando Pereira。他对着些新设备并不像其他人那么激动,反倒是更期待人们在使用它们之后会产生什么变化。他对我说:
让我告诉你一些正在发生的变革。
本文的主要采访对象:Fernando Pereira
Pereira 在 Google 内部同样也是“杰出科学家”。2008 年加入 Google 之前,他是宾夕法尼亚大学计算机与信息科学系主任。而他在 Google 一直尝试解决的核心问题是:“我们应该如何通过数据来了解文字的意思?”换句话说,就是“机器怎样才能真正理解人类输入搜索框的文字、又或是语音命令?”
Google 内部以及外部的研究者已经将大体答案确定——通过机器学习(machine learning)。详细点说,就是利用人工智能领域的神经网络技术。通过模仿大脑的工作方式来建立一套电脑自我组织系统。这些系统通过复杂的算法和大量的数据来训练自己。顺其自然的,数据越多效果越好。
Pereira 还告诉我,一旦成千上万的用户开始使用拥有 Google Assistant 的新旗舰硬件设备,它的团队以及其他科学家就会收到数量及其庞大的数据。这,就是他所提及的变革。
并且 Google Assistant 这一独立的软件系统还将嵌入 Google 的众多平台当中,包括 Pixel 手机和 Google Home 设备。最终的目标是像 Siri 一样容易控制,同时像 Amazon Alexa 一样提供服务,同时在聊天上达到“艺妓”的水平,最终再把 Facebook Messenger 中的聊天机器人羞辱一番。
尽管 Google 已经在语音搜索、Google Now 这样的产品中嵌入了语音命令,但 Google Assistant 跟它们还是略有不同。在 Google 自己眼中,它是回答问题和执行任务的最佳代表。同时,他们还将 Google Assistant 视为旗下众多软件的一次升级,包括搜索、地图、相册以及 Google Now。之前 Google 也专门做了几次演示:“给我看海滩的照片”、“在电视上播放舞曲”、“告诉我今天预定的行程”。Google Assistant 同时还被设置为通过语音、人机交互来完成大部分任务。假如你先问“最近的意大利餐厅在哪里?”,然后命令 Google Assistant 把你带到那里,它就会直接开始指路。
正如有点异样,Pereira 也非常清楚 Google Assistant 的缺点所在。最令人沮丧的是,Assistant 目前对复杂任务的理解只是 Google 漫长征程的开始。因为目前 Assistant 在理解用户方面失败率还是很高。但 Pereira 还是要让 Assistant 真正理解人类的命令,从另一个角度来说这也反映出了对复杂的通信以及整个物理世界运作的掌握。
但想要做到上面这两点肯定很困难,尤其是因为 Google 目前还没有能够拿来训练其神经网络的数据,因此 Assistant 的表现也无法达到他们的期望。Pereira 表示:
当你建造一个理解自然语言的系统,你会发现并没有很多能够建立理解的例子。所以你只能自己建立规则,你必须亲自教愈发,以便系统能够理解。这种教学实在太费劲。
不过 Pereira 也将现在视为一个临界点。在经过公司内部长达 10 年以上的长期学习之后,Google Assistant 现在已经能够满足部分想要试用它的消费者。他也相信 Google Assistant 能够很好的回应消费者所发出的语音指令。
图注:这次 2016-2017 年的“变革”将把我们的系统从“明面上学习”变成“暗地里学习”。
这次变革的过程将在这两天发生。当数以百万记的人开始通过 Assistant 与 Google 对话,原来无穷无尽的困难也就被分解开来(通过 Google Home,你只能通过对话使用它,因为没有键盘)。Pereira 继续说到:
你现在已经可以开始做机器学习。你也会因此跑得更快,能够更快地获得更深、更广泛地学习认识。这次 2016-2017 年的“变革”将把我们的系统从“明面上学习”变成“暗地里学习”。您甚至可以把它当成一次迷你版的“奇点”。
当然,在这两年变革的过程中,数据的流入并不会停止(在这里我也需要澄清一点,Pereira 和其他 Google 员工谈到的这种转变是指汇总数据,包括偏好、轨迹、过错的收集,而不是用户对话的收集。)。Pereira 认为这会催生出下一个更好的 Google Assistant,然后,换来更高的使用率、更多的用户对话、更多的数据然后再次转变为更多提升,形成良性循环。
也许再过 10 年,这个良性循环就会最终孕育出一个能够理解我们说出的任何东西的机器人。
发布 Google Assistant 几乎和当初 Google 在成立之初发布搜索一样,在那时候,搜索是个非常棒的东西,但现在,我们对它的理解增加了很多。
我们将把从现在开始 10 年以后的 Google Assistant 和今天的 Google Assistant 做比较。它的影响力将会大很多,帮助实现你的需求的能力也更强,对交谈内容的理解也会更透彻,将来源不同的信息整合起来的能力也更强大。
Google CEO 桑德拉·皮猜在本月初发布会上谈及 Google Assistant 的照片(来自 Bloomberg)
Pereira 这段话有个先例可供参考。2007 年的时候,Google 开通了一个名为 1–800-GOOG-411 的服务。
在那仿似蒸汽时代仍依赖打电话的日子里,如果你旋转电话键盘以拨打 411,你会被连接到一个叫做 “信息” 的服务(这个名字现在看来有点怪),并且会有真人接线员听电话,并告诉你你想要找的人或公司的名字以及地址。然后他/她就会提供相关的电话号码。从某个时间点开始,电话公司开始针对该项服务进行收费。
但 Google 提供了一项免费且自动化的替代服务,它可以记下你的语音需求并即时把你转接到你想要联系的公司。那时候,这一举措不是为了讨好人或是扩大搜索。Google 其实是在收集庞大的可数字化以及分析的语音数据。
正如 Google 当时其中一位副总裁 Marissa Mayer 解释道,
我们所聘请的语音识别专家说,‘如果你们想我们打造一个真正强悍的语音模型,我们需要大量音素’。音素是由特定声音,以特定的语调,说出的一个音节……
1–800-GOOG-411 存在的真正目的在于:获取大量不同的对话样本,然后我们就可以…… 在我们在尝试从视频(或是其它需要语音识别的任务)中将声音提取出来时,获得更高的准确率。
三年之后,Google 获取的语素材料足够他们开始做语音听写了。所以他们停止了该项目。
这次变革也有着一个相似的目的:在不同的情境下为 Google Assistant 收集数百万(如果不是数亿的话)条需求 —— 在路上拿着手机的时候;在家里使用 Google Home 的时候 —— 为的是公司可以训练其深度学习神经网络,并最终深刻理解要怎样才能创造出一个可以明白你需求的机器人,并且还可以和你持续沟通直至需求得到满足为止。
Google 需要这些,即使在过去 18 年里已经从搜索收集了大量数据。首先,人们在搜索的时候,并不会以对话的形式和引擎交互。谷歌的一位副总裁 Scott Huffman 曾表示:
人们对搜索的期望非常高。就像,‘噢,这里有个框框。我理应在输入 2.5 个字之后就会获得公开信息’。如果你告诉人们他们可以对那个框框随便说什么都可以,‘打电话给我甜心’,他们的反应应该会是,‘什么情况?我才不要对着框框说这个,永远都不!
但如果换成了 Google Assistant ,他们应该会更加乐意这样做,而 Google Assistant 经过机器学习后,现在也懂得应该怎样去理解“甜心”是什么,而且也通过打给他/她的电话频次,以及其它数据来判别出那个人指的是谁。
当人们要求 Google Assistant 做事的时候,其它重要的信息也会出现。Pereira 也用现实中的例子做了进一步解释:
在搜索记录中,我们找不到人们要求以下这类事情的记录,例如:‘帮我在 CasCal 订个两个人的桌子,晚上七点。’没有人会对 Google 搜索说这个对不?因为那是个搜索引擎。
事实上,Google 搜索其实是可以实现订位,但还是会有例外:一般情况下,Google 搜索可以向你提供答案,但不能够落地完成。因此人们是不会要求它去做事情的,因此 Google 无法获取与协助性相关的数据。
直到现在,我们才正开始获取足够的流量和互动,以开始探寻我们怎样才能够使得(一个助手)成长以及变得更厉害,更通用,更灵活。这将是一段很长的路,从由搜索引擎为代表的信息层面去到实现层面 —— 成为无处不在的助手。
Fernando Pereira,图片来自 Talia Herman
Google Assistant 首次亮相于公司今年 9 月发布的 “智能” 通讯 app,名为 Allo;到现在伴随着 Pixel 手机才获得了大量关注(Google Home 将于 11 月 4 日出货)。评论称, Google Assistant 理解任务以及操作任务的能力都比苹果的 Siri 强。
它的短期记忆使得它可以保留部分信息,所以如果当你问附近有什么电影看,要完成购票动作,你可以通过说 “帮我买《会计师》(The Accountant)的电影票,要下午四点的” 来完成,而 Google Assistant 也会知道你所指的电影院是哪家。但如果想要通过提出一个合理的需求来揭露 Google Assistant 对世界理解的肤浅的话,也并不困难。
Huffman 是一位经验丰富的搜索执行官,现负责 Google Assistant 的发展,向大家提供了一个例子。现在,如果你让 Google Assistant 在就近墨西哥餐厅订个位置的话,它的表现不会让人失望。但如果你要求它在 “我的其中一个老地方” 订位的话,这实际上是一个无法完成的难题。与其瞎猜,Assistant 会直接跟你说:
对不起,我真的帮不上忙。
通过这个例子,你一定会觉得 Google Assistant 太差劲了。可是 Google 不是这么认为的,他们反而把这些视作一个机会,是一个“变革”。
Google Assistant 每一次向用户说出“Sorry”,都是给那些远在山景城的研究人员一次提醒,同时也是一次被记录的数据点。当相同的数据点积累到一定程度时,就是研发人员该做些什么去调整或改变的时候了。
像是上文提到的“经常去的地方”,就是让研究人员改进 Google Assistant 的提示,帮助 Google Assistant 理解这一概念并加入其网络的人造神经元中。具体怎么改进呢?Huffman 解释道:
我们会先从人们经常访问的地方入手,然后会做出一些限制和过滤,以便我们定义“经常”这个概念。接下来工程师就会对定义了的概念进行测试,例如,过去六个月内访问超过三次的位置,而且车程不超过 10 分钟。
不过这些都是打比方,制定一个定义规则很重要,这样就可以进行接下来的机器学习步骤。
所以如果现在你想去第三街的 Joe’s Diner 吃饭,它会说你六个月都没去过了那儿了,你一定不会喜欢的,去试试 Suzy’s Diner 吧,很不错的。接下来就可以开发一个自己的机器学习完全模型了。Pereira 又继续说到:
一旦这种情况发生,Google 的神经网络就能达到跨越式的进步,那么公司网络中非结构化数据,以及现有的庞大数据库也能够被全面地利用起来(Google 拥有一个超 700 亿信息的数据库),就能为用户更好地解释这些地方或事物的意思。
由此,Google Assistant 就能借助来自四面八方的数据来完成更加复杂的任务。
Google 用这样的一个例子来为我们描绘了这一梦想蓝图:
如果你家里有热水器坏了需要更换,需要先为用户找到一款合适的热水器,这之中就包括衡量定价、综合用户反馈数据,接着下订单购买,最后联系安装人员,并为用户安排一个满意的安装时间。
现在要完成这个任务,还需要使用常识、消息和一系列在线目录来组合不同的信息碎片。不过在 Google 的想象中,一旦升级版的 Google Assistant 开发完成,发现了热水器故障,你只需要依靠那个简单小巧的 Google Home,跟它说一句“OK,Google!”,说明一下情况,接下来只需要玩儿自己的,它都能帮你搞定。正如 Pereira 所说:
有关热水器、性能参数、安装日程安排等一切的信息都在电脑文件上,虽然我们还无法到达那个地步,但这是我们对 Google Assistant 最完美的愿景。
如果用户和 Google Assistant 不怎么保持交流,那么以上都是空谈,只有良好的联系才足以使 Google Assistant 不断改进,推动它向前发展。最后,Huffman 说道:
现在最大的挑战就是需要充足的对话数据,我们得不断说服用户和 Assistant 进行对话。很显然,我们的确还不够完美,但是有努力让用户保持沟通的信心,这可以让我们做的更好。
转变还需要等待,不过,先来一句“OK,Google!”和 Assistant 聊聊天吧。
注:本文由李赓、文敏柔、方嘉文共同编译。