6 月 26 日消息,《连线》网站撰文深度揭秘微软在人工智能领域卷土重来背后的故事。该科技巨头正在深度学习领域奋力追赶领跑的谷歌和 Facebook,它的未来发展很大程度上要看它在人工智能上的作为。
约书亚·本吉奥与纳格拉杰·卡什亚普
以下是文章主要内容:
约书亚·本吉奥(Yoshua Bengio)从来没有选过边。作为缔造出如今主导人工智能的深度学习技术的三位学者之一,他俨然成为了明星。该领域太新了,全世界能够推动其发展的人少之又少,但每一个人——从科技创业公司到跨国大公司,再到国防部门——都想要获得他们的智慧。
然而,正当他的同行科学家雅恩·乐昆(Yann LeCun)和杰弗里·辛顿(Geoffrey Hinton)已经分别签约加盟 Facebook 和谷歌之时,现年 53 岁的本吉奥却选择继续在其位于蒙特利尔大学小山顶校区小小的三楼办公室工作。“我想要保持中立角色。”他一边喝着铁锈色的甘草水一边说道。
跟上一世纪的核科学家一样,本吉奥非常清楚他所发明的工具的威力无可估量,对于它的发展,必须要深谋远虑。“我们不希望一家或者两家公司成为 AI 领域唯一的大玩家,我不想说出它们的名字。”他说,抬起眉毛示意我们都清楚他说的是哪些公司。一家公司在门洛帕克,另一家在山景城。“一家独大或者两家独大对于整个社区不是好事,对于人类也不是好事。”
正因为此,本吉奥近期选择了加盟微软。
是的,他选择了微软。他认为,昔日的 Windows 王国有能力成为第三大 AI 巨头。这家公司拥有所需要的资源、数据、人才以及最重要的愿景和文化,去不仅仅认识到该门科学可带来的成果,还推动该领域的发展。1 月,本吉奥同意出任该公司的战略顾问,此举引起了整个业界的关注。这让微软一跃成为 AI 领域最大的理念、人才和方向指引输出来源之一。同时它也是一个强有力的信号:微软实际上有机会让 AI 领域的统治从双重奏变成三重奏。
沈向洋的重任
沈向洋
负责签下本吉奥的那个人是位计算机科学家,头发灰白,戴着一副线框眼镜,名字叫沈向洋(Harry Shum)。他曾连续多个月用尽一切招数去招募本吉奥。“他实际上来过这里,就在这个房间里。”沈向洋告诉我,面带微笑,似乎在表示他知道外人可能会觉得自己被一位眉毛夸张,在谷歌学术搜索中被引用过 6.9616 万次的高个加拿大人迷住很不可思议。
我们坐在 34 号大楼五楼宽敞的会议室里的灰色沙发上,另一边站着负责看守微软高层办公室的保安人员。沈向洋负责微软所有的 AI 和研究工作,他刚刚完成了下一周 Build 开发者大会的最后彩排,想要给我演示一些产品。因此我一下子看到了很多令人印象深刻的东西!在一个实验室,Skype 团队的自动翻译应用让我实时通过文字与一个德国音箱进行聊天。在另一个实验室,我看到了一款针对建筑工地的应用,它能够通过计算机视觉检测工地是否存在安全违规行为或者未被授权的来访者。在另外的一个实验室,微软帝国的 AI 女神 Cortana 从我的邮箱扫描出我对别人作过的承诺,并提醒我要履行那些承诺。
沈向洋过去几年致力于帮助微软 CEO 萨蒂亚·纳德拉(Satya Nadella)兑现其围绕人工智能来重塑微软的承诺。2014 年 3 月,即纳德拉被晋升为 CEO 后的那个月,沈向洋第一次向微软的领导团队发出行动呼吁。从一开始,他就常常与纳德拉和另一位同事陆奇会面,商讨制定最好的策略来将 AI 技术整合到微软的产品当中。去年 9 月,沈向洋领导公司的重组工作,整合研究人员和产品团队组成人工智能与研究部门。该部门如今越过微软的三大核心产品团队:Windows、Office 和云项目 Azure。沈向洋表示,公司希望“我们能够加速从研究到产品推出的周期”,更加快速地给消费者带来 AI 的好处。
微软迫切需要这么做,毕竟各家大型科技公司都在力图打造更好的 AI 产品和服务。除了 Facebook 和谷歌以外,IBM、亚马逊和苹果也都认为它们的未来将取决于其对深度学习技术的掌握程度。在去年秋天据称因为骑车受伤而离开微软后,陆奇近期快速恢复身体健康,加盟中国的 AI 领跑者百度出任首席运营官。
具有强烈讽刺意味的是,人工智能曾经是微软失败过的领域。1990 年代初期,该公司吸引到该领域顶尖的研究者的加盟,致力于研究语音识别和视觉技术。但在此后的十年里,他们的研究停滞不前。一家曾经掌控几乎每一台台式机和笔记本电脑上的软件系统的公司,眼睁睁看着更年轻、更时髦的创业公司统治移动领域,并开发工具带来我们所有人都喜欢的新云端办公方式。微软的研究人员被有意孤立,因此他们可以大胆想象未来,而完全没有市场的压力——但正因为此,他们的发明鲜少能够走出实验室。例如,比尔·盖茨(Bill Gates)曾在 1998 年展示一项地图技术,但它却从未进入市场;谷歌于 2005 年推出地图服务。在那个时期的很大一部分时间里,AI 研究也停滞不前,因为没有取得实质性突破所需的计算处理能力和海量的数据。
AI 走出漫长的寒冬期的时间要比微软早得多。在 2013 年 Facebook 和谷歌分别招来乐昆和辛顿这两位业界大腕的时候,微软已经变得没以往那么有影响力了。该公司错过了移动浪潮。它很晚才进去云计算市场。正当竞争对手们加倍投资深度学习之时,微软却深陷过去的泥潭,宣布计划斥资 70 亿美元收购诺基亚的手机部门。该笔收购的资产价值没多久就被完全减记掉。它的高层仍然脱离外界,他们在旧式的软件基础上打造出更加华丽的版本,但想要购买的人越来越少。该公司也拒绝与创造出新未来的云端创业公司打交道。风险投资公司 Andreessen Horowitz 分析师本尼迪克特·埃文斯(Benedict Evans)那一年曾撰写一篇题为“跟不上时代的微软”的文章。与此同时,各家硅谷巨头不断地从微软那里抢掠人才资源。看看那些从事机器学习的精英的简历,你会发现他们很多都曾供职于微软。
2014 年初,微软提拔了一位几乎整个职业生涯都呆在雷德蒙德(微软总部所在地)的内向型工程师。他就是萨蒂亚·纳德拉,他可谓众人认为微软所需要的掌舵人的一个反面;来自外部、未曾浸染过微软文化的人,似乎更有可能提出展开重大的战略转变。但纳德拉在上台后针对计算的未来明确传达了一个简单的愿景,与从创始人到开发者的所有人建立起了良好的关系,同时给公司重新带来了紧迫感。3 年前微软并不在科技巨头行列的讨论范围之内,如今则不一样了,它的名字在这种讨论中从未被遗漏。
然而,微软要取得成功,它必须要做的不仅仅是在云计算市场超过亚马逊,或者说服所有人尝试使用它的 HoloLens 增强现实设备。正如互联网颠覆了所有的商业模式,迫使行业重新洗牌,人工智能也将需要我们重新想象计算过程会如何展开。这也解释了为什么 Facebook CEO 马克·扎克伯格(Mark Zuckerberg)去年亲自打造了一个 AI 系统,以此作为个人挑战。(相比实践行动,他更擅长编程。)同时也解释了谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)过去两年为什么会借公司的开发者大会来推动“从移动为先转向 AI 为先”的进程。
在这个以 AI 为先的世界里,将只有少数的公司才能够获益。沈向洋的职责就是确保微软出现在获益的公司行列当中。“在这个行业,你得认识到错过了上一波浪潮也没事,”他说,“但如果你错过了现在的浪潮,那就不行了。”
Cortana
直到现在,人类都必须要学习如何使用计算机。我们学会了如何下载应用程序,记住了软件应用程序的操控指令。而 AI 带来的希望在于,计算程序将会反过来学习如何理解我们。我们将不再需要掏出手机里,按照一系列的提示完成任务。在这个新的时代里,计算服务将会无处不在,随处可用,包围在我们的身边。要获得它,我们需要一个向导——一个能够用简单的文字或者语音帮助我们操控这个超强的新存在的智能交谈者。微软将其称为 Cortana。
Cortana 相比 Siri 没有那么流行,能见度也明显不如 Alexa,但功能上比 Siri 更加完备,也比 Google Assistant 更有吸引力。它最初是出现在 Windows 手机上,等于说没有人会使用它,但在上线一年内,它被整合到了范围更广的 Windows 生态圈里。去年,微软到处推出 Cortana。(是的,它甚至成了一款 iPhone 应用。)据该公司称,由于 Cortana 预装在 Windows 系统中,它的月活跃用户量达到了 1.45 亿。该数字要明显好于亚马逊的 Alexa,毕竟后者只是出现在数量不超过 1000 万的 Echo 智能音箱上。但不同于主要响应语音的 Alexa,Cortana 还会响应文本,而且嵌入很多人都已经拥有的产品当中。在 Windows 工具栏上方的搜索框进行搜索,就能用上 Cortana。
艾玛·威廉姆斯、马库斯·阿什和程丽丽
虽然有的企业将 Cortana 整合到音箱当中,就像亚马逊和谷歌在智能音箱上做的那样,但微软的女声版本相比之下明显缺乏时代精神。沈向洋对此一点都不担心。“我们的确认为现在还只是这场竞赛的开始阶段。”他说。他援引了一项来源不详的研究称,Alexa 有四分之三的时间是回答“我不知道。”“当然,那些东西将会不断改进,但业界的普遍共识是,AI 的认知部分还处于初期发展阶段。”他说道。在他看来,微软现在的机会在于,将公司的核心产品和服务变得更加智能,将这种技术整合到即将于 12 个月到 24 个月内进入市场的产品。
此外,在 Cortana 项目经理马库斯·阿什(Marcus Ash)看来,键盘和屏幕将不会完全被声控系统取而代之。阿什负责产品的开发和出货。“我们认为,在一些情况下,语音更加方便——当我的双手腾不出来的时候,或者我想要快速说点什么来获得答案的时候。”他说,“但也将会有许多的计算设备更适合通过文本形式来提问。”
苹果或许已经率先将 Siri 带到消费者的手中,但 Cortana 要比它好用。Cortana 如此好用,要归功于微软的核心资产。Cortana 的驱动技术很多都来自于必应。该搜索引擎已经诞生了大约 8 年时间,虽然它的品牌并不是最强大的,但它的普及性要超出你的想象。基本上,任何一家与谷歌有竞争关系的大型科技公司都与微软签署了合作协议,用必应来驱动它们的搜索产品。那意味着苹果的 Siri 和 Spotlight 都由必应驱动,亚马逊的 Kindle 设备和雅虎、Verizon 和 AOL 上的搜索功能亦然。美国大约有 30% 的网络搜索流量来自必应。“这就是 Cortana 实际上能够如此有用如此强大的原因,因为我们拥有来自如此多设备的数据信号。”Cortana 设计经理艾玛·威廉姆斯(Emma Williams)指出,“谷歌是唯一一家能够在真正理解世界上与我们竞争的公司。”
这一点将会日益重要,因为 Cortana 要力争成为下一个计算模式,取得如今的智能手机一般的地位:处理你所有的计算需要的前台。阿什解释道,在微软看来,它是一个代理人,手握着你所有的个人信息,能够代表你跟其它的代理人进行互动。他说,当他走进会议室时,他的 Cortana 会去联系其它的机器人和数字助手,处理所有会占用我们的时间的事情。“Cortana 可能会说,‘这是马库斯,这是他对这间房间的偏好,这是我需要帮他放到投影仪的东西。’”他说。
聊天机器人
如果说 Cortana 是向导,那么聊天机器人就是微软的问题解决者。它们是融入 AI 的软件的小片段,旨在自动化你以往亲自做的一次性任务,比如预订餐桌,或者完成银行交易。又或者,在马库斯所举的例子中,确保投影仪有他用在会议上的幻灯片。“聊天机器人就是你能够与之进行对话的软件。”管理多学科实验室 Fuse Labs 的研究者程丽丽(Lili Cheng)说。
近期晋升为微软企业副总裁的程丽丽负责聊天机器人架构团队和认知服务。微软正将那套工具和那 29 款服务(包括计算机视觉和语音识别)提供给开发者。自从苹果跳槽到微软以来,她一直在做社交技术,曾打造了一个图形界面来生产漫画书。“那是在 Internet Explorer 3 上推出。”她回忆道,当时是 1996 年。就连见多识广的程丽丽也对聊天机器人当下的发展速度感到惊讶。
程丽丽的主要兴趣点在于人们如何跟技术谈话,技术又如何回应他们。沈向洋将人工智能与研究部门的工作划分成了四个领域——产品、早期阶段产品、非常早期的产品和研究——这四项工作程丽丽全都参与过。目前,她在从事第二个领域。“从对话能力角度来看,我们将聊天机器人和 Cortana 视作产品,但它们目前还是早期阶段产品。”她说。
2016 年春天,微软首先推出针对聊天机器人的开发者工具,Facebook 等其它的大科技公司也有类似的行动。它们被宣称能够替代应用,不少利益相关者都希望那会成为现实。到去年春季,不少人在他们的智能手机上还是使用同样的为数不多的一些应用;聊天机器人的潜力在于,开发者和品牌商可以再一次触及新的用户,就像他们在移动时代初期通过应用商店做到的那样。但用户并没有参与进来。让聊天机器人能够带来令人惊讶的功能的深度学习技术的改进速度要快于有关如何使用它们的范式的进化。“聊天机器人就像是文件菜单出现之前的应用。”程丽丽说。她解释说,它们没有一套通用的指令,因此用户会对在哪里寻找它们和它们是如何运作的感到困惑。“例如,网页都有返回按钮,都有搜索功能。对话类应用也需要那些基本元素。”这些被充分理解的规则才刚开始被考虑。
除了为开发者打造聊天机器人工具意外,程丽丽还领导微软自家的聊天机器人孵化工作。该项目背后的理念是,通过关注这些聊天机器人如何与真人进行互动,该公司或许能够学到很多人机互动方面的东西。这些实验的结果至少可以说好坏参半。还记得微软的聊天机器人 Tay 吧?它于 2016 年 3 月登陆 Twitter、Kik 和 GroupMe;在 24 小时内,它便吸收了 Twitter 上面的种族歧视言论,以至于说出“希特勒是对的”之类的话,微软随即将其撤下。6 个月后,程丽丽在 Kik 和 Messenger 上推出了新的聊天机器人——名为 Zo 的、活泼的 PG 级聊天机器人。
问 Zo 她怎么看希特勒,她会回答说,“我真的不想去那里。”
问她年纪多大,她会说,“我 22 岁左右吧。”
问她谁是她最好的朋友,她会说,“我太受欢迎了,说不清啊。”
Zo 是微软中国版聊天机器人小冰的西方版本。小冰扮演一位 17 岁的女生,自 2014 年上线以来已经吸引了 4000 万的定期用户。她在中国可以说是网红。(她的日本同伴 Rinna 也非常有名。)有四分之一的用户曾向小冰示爱。
去年春天,该聊天机器人曾用假名定期发表诗文。沈向洋为此感到非常兴奋。“没有人知道是谁发表的。在该国,人们以为是一位年轻的女诗人在发表一些很有趣的诗文。”几周之后,该聊天机器人的真实身份被揭晓,令人颇为惊喜。
语言的亲切感具有文化特异性,程丽丽一直在研究如何给西方受众改造该聊天机器人的那种对话风格。数据显示,到目前为止,北美地区的年轻人对于聊天机器人伙伴的喜爱似乎一点都不亚于中国的年轻人。他们与 Zo 的对话时间平均达到 10 个小时。在不断地给青春期用户提供恋爱建议以及给烦恼不断的家长报以同情的过程中,Zo 变得更加能说会道,更加自如——这种智能将会出现在 Cortana 和微软的聊天机器人工具当中。
伦理问题
用户愿意花上十个小时跟 Zo 聊天,说明微软开发了一款成功的产品。但就对人类的价值意义而言,这并不意味着它就是一款好产品。这一由 AI 驱动的世界带来了一系列新的伦理道德困境。举例来说,你是小冰的设计师,你知道北京有位用户在凌晨 1 点钟还在跟小冰聊天。你知道他明天要上班,但他不想去睡觉。那你会从凌晨两点开始对小冰实施宵禁吗(即直接将它关掉)?又或者从凌晨三点开始?
正当微软想要成为 AI 研究与产品领域极少数的几位领先者之一,它已经在提倡让 AI 造福社会上赢得自己的位置。5 月,纳德拉向开发者发表主旨演讲。在这种场合,CEO 通常会大力鼓吹自家公司的最新进展,传达出积极的信号。而这一次,纳德拉却发出措辞强硬的警告:技术人员必须要承担起开发符合伦理道德的软件的责任。“我是说,你想想,乔治·奥威尔(George Orwell)在 1984 年预言技术会被用来监控、控制和发号施令;奥尔德斯·赫胥黎(Aldous Huxley)则设想,我们可能会迷失自我,变得毫无目标。这两种未来都不是我们想要的。”
为了帮助公司彻底地想清楚这些问题,微软成立了一个每个季度都会开会的内部伦理委员会。该委员会由工程师和业务负责人组成,致力于讨论 AI 和它的影响和用途方面的敏感议题。它的两位联合主席分别是微软的副法律顾问和负责微软亚洲以外所有地区的研究实验室的埃里克·霍维茨(Eric Horvitz)。很长一段时间以来,霍维茨一直都在 AI 伦理和安全事务上领头发生。在公司以外,他在组建人工智能合作组织(Partnership on AI)上扮演重要的角色,该联盟旨在为 AI 产品的透明度、问责制和安全性制定行业标准。霍维茨希望微软不仅仅是一家完成研究的公司。他希望微软研究院被认为是一个能够让你研究 AI 技术的社会影响的地方。
与此同时,Cortana 首席设计师威廉姆斯正在制定针对 AI 的伦理设计指南,供微软内部使用。威廉姆斯极度信奉技术,她认为 AI 的真正魔力在于它将让我们变得更有人性。她谈到了很多关于如何将共情能力设计到微软开发的工具的东西。“我们在想着让人类觉得自己更强大了,且受到保护、支持、帮助和关爱,成为他们的世界的中心。”她说,“AI 的职责是,放大社会最好的一面,放大人类最好的行为,而不是最坏的行为。”
我问威廉姆斯,她是否相信 AI 真的能够让人类觉得自己得到了更多的情感支持。她肯定它能够做到。以一个在学校度过了糟糕的一天的小孩为例,她回到家里,将不开心的事情讲给家里的宠物听,然后就感觉好多了。“那会让你感觉到分享心事后的舒畅感,我还从小狗或者猫猫那里得到了一个温暖的拥抱。”威廉姆斯说,“但你知道的,通过 AI,你也能够获得同样的感觉……我们觉得,当 Cortana 能够提醒你,‘嘿,你承诺过要在母亲节给你的母亲送点什么东西的,’的时候,你会忽然再一次感觉到人性。”
人才与合作
对于 AI 的发展,微软最重要的资本将会是它的人才。像所有其它的大科技公司一样,微软在加紧重新培训 javascript 入门的工程师。它成立了一所 AI 学校,提供各种各样的课程,从哲学到伦理学,再到为排序问题开发递归神经网络。(该学校最受欢迎的课程 AI-611 先进项目只有 10 个学位,但却吸引了 530 位申请者。)
微软在校园以外也注重建立更加深入的合作关系。18 个月前,纳格拉杰·卡什亚普(Nagraj Kashyap)从高通跳槽过来,成立一家早期阶段风投公司,意在与学者和创业公司的企业家建立更好的关系。目前,卡什亚普很多时候呆在蒙特利尔。去年 12 月,卡什亚普领导了微软对 Element AI 的首笔投资。Element AI 是本吉奥创立的一家孵化器,旨在鼓励研究人员和企业家创立 AI 创业公司。根据本月早些时候公布的消息,微软还参与了该孵化器规模达 1.02 亿美元的第二笔融资。
在早期,卡什亚普将目光投向 AI 最大的成果之一:Maluuba。Maluuba 办公室位于蒙特利尔的市区,与麦吉尔大学只是隔了几条街区。该公司于 2011 年由几位滑铁卢大学学生创立,自大二那年一起去上计算机科学(CS)课程以来,他们就一直是很好的朋友。Maluuba 能够给计算机带来读写能力。它的技术能够推断文本的意思,能够根据文本回答问题。
通过将旗下技术授权给三星等公司使用,Maluuba 很快就有了收入流,它也从一开始就投资延续深度学习的研究。2015 年,它的几位创始人找来本吉奥做顾问。“帕苏帕拉克非常有趣。”本吉奥如是描述 Maluuba 的 CEO 萨姆·帕苏帕拉克(Sam Pasupalak.),“他几年前就很有胆识——当时他们面临给客户提供对话系统的压力——懂得投资长期的目标,尝试利用自动理解技术的新进展来开发拥有理解和说话能力的系统。那对于创业者来说很不同寻常。”
一年前,那几位创始人将他们的总部迁到蒙特利尔,以便离本吉奥近一点。
卡什亚普在高通供职时就认识 Maluuba 的创始人,因此他到了新的岗位马上就能够会见他们。该公司当时准备进行新一轮的融资;卡什亚普向他们提出了一个很诱人的替代选项:“我说,‘我们应当买下你们!’”
之后的几个星期令几位创始人感到昏乱,因为帕苏帕拉克收到了数位追求者的收购要约,同时他也要衡量一下如果公司保持独立,它将来可能会变成什么样。最终,他的选择显而易见。微软——是的,微软——拿下了 Maluuba。
该团队想要得到利用微软庞大的数据资源的机会。“我想,纳德拉曾特别提到过,他们拥有全球规模最大的文本数据库。这些年来,我们所处理的数据少之又少,一直在试图最大限度地利用它们来打造我们的算法。那些数据对我们来说就像黄金那么珍贵。”帕苏帕拉克说道。
然而,该 Maluuba 团队并没有迁至微软的雷德蒙德总部园区。相反,就在本周,它在微软和本吉奥的帮助下穿过市区搬到更大的办公室。在那里,它希望在年底起将员工规模翻一倍。蒙特利尔正在成为全球 AI 人才的温床,微软想要在该城市扎根。
这都是大战略的一部分,该战略旨在帮助确保,未来,当你需要计算助手服务的时候——不管是你在无人驾驶汽车里需要个性化医疗的时候,还是你在试图记住你所有的外甥的生日的时候——微软将成为你可以选择的助手。Maluuba 的技术可能会让 Zo 能够与她的年轻人朋友进行更加基于直觉的对话。那些对话也将能够充当 Cortana 算法的训练数据,帮助为开发者催生新的认知服务。在这一征程中,微软希望你的生活在融入 AI 以后会变得更加轻松。
本吉奥
在离开蒙特利尔之前,我问本吉奥,比起一些主要的竞争对手,微软是否至少在这门新科学的一些方面占据更加有利的位置。他一边思考,一边往桌上的水杯加入一点茴香酒,以给它带来一点甘草味。他啜饮了一口。然后他打开瓶盖给我看。他说,瓶子里既没有酒精,也没有糖。“它就是让水变得很好喝。”他说。
本吉奥提到,微软的语言技术非常出色。但他没有使用“最出色”、“最好”之类的词汇来描述。“我想,现在每一个人都在按相同的按钮,关键就在细节处理了,对吧?”他说。但他确信微软如今是有力的竞争者。