阿里巴巴也发布了自己的首个音箱产品。
2017 年 7 月 5 日,阿里人工智能实验室在北京时间博物馆发布了一款名为“天猫精灵”的智能语音音箱。一个智能语音音箱,对于阿里的意义来说却可大可小。
2003 年 5 月淘宝成立,当年 10 月推出支付宝。此后迄今 14 年,淘宝一路超越 ebay 易趣、雅虎等成为亚洲第一大网络零售商。2008 年推出淘宝商场,2012 年 1 月更名为天猫,2017 年 7 月“天猫精灵”公测。
阿里公众与客户沟通部张启表示,“感觉现在的天猫精灵有点像 2003 年淘宝刚开始发展的时候,一切都刚开始。”从当年淘宝第一版非常丑陋的网页入口到今天精工细作的智能语音音箱入口,“天猫精灵”会不会成为阿里的下一个进化奇点?人工智能时代,阿里的进化之路又将如何演进?
阿里的“航天飞船”
2016 年,阿里人工智能实验室(A.I. Labs)成立,负责阿里巴巴集团旗下消费级 AI 产品的研发。2017 年 3 月,阿里宣布“NASA 计划”,聚集于核心领域的研究,解决未来 10 年到 20 年后的困难。而“天猫精灵”作为阿里自研的硬件产品,实际上承担了类似“航天飞船”的硬件功能。
阿里人工智能实验室负责人陈丽娟(花名:浅雪)在“天猫精灵”发布会上介绍,天猫精灵 X1 比亚马逊 Echo 和苹果的 Homepod 都小巧,这样的设计是为了进入家庭时没有侵入感。当然,“天猫精灵”的小巧外形很有可能是针对中国家庭的面积而设计。
为了实现小巧的外形设计,天猫精灵 X1 采用了首颗专门为智能语音行业开发的芯片,针对需要进行大量音频处理、声音合成的工作环境,定制芯片加入了独立的 NEON 处理单元,可加速音频和语音处理、电话和声音合成等,带来更优秀的语音识别及音频处理效果。
天猫精灵 X1 内置中文人机交流系统 AliGenie,AliGenie 实际上与阿里人工智能大脑 ET 共享技术成果。依靠阿里云强大的机器学习技术和计算能力,AliGenie 作为人工智能系统就已经很成熟。因此,天猫精灵 X1 的难点并不在语音识别、智能语音交互等人工智能功能,反而在于硬件的设计、制造、供应链管理等阿里之前没有涉及到的业务领域。
陈丽娟表示,阿里之所以没有选择外包的方式来完成天猫精灵 X1 的硬件设计、生产和制造等工作,是因为智能语音音箱涉及到了非常复杂的软硬件集成与硬件工程,目前在市场上还找不到一家能够满足所有上下游零部件集成研发、生产与制造的厂商,因此阿里只好自己来承担这个硬件产业集成的角色。
全面激活阿里技术生态体系
天猫精灵 X1 和 AliGenie 应用了阿里积累多年的语音识别、自然语言处理、人机交互等技术。
基于声纹识别技术,X1 还推出了声纹购功能,这也是是第一个商用的声纹购物系统。
阿里人工智能实验室的语义理解系统还带有记忆功能和总结归纳能力,加入了模拟的“长期记忆”和“短期记忆”功能,能够针对不同的场景和时间度,让语义理解系统更加贴近用户。除此之外,阿里人工智能实验室还已经着手其他多个语种的研究。
现在,这些阿里技术生态体系,也随着 AliGenie 开发者平台对外开放,包括了语音技术、服务入口以及硬件方案,并整合阿里生态体系中丰富的互联网服务和商业链接能力,共同为消费者提供智能体验。
AliGenie 开发者平台主要面向四种类型的开发者:内容开发者、应用开发者、智能家居开发商和硬件生产商,开放的核心技术包括深度学习、自然语言处理、搜索/推荐算法 、知识表示及推理问答系统等,将免费开放给开发者和硬件厂商,无需从头搭建 AI 语音系统。
至于为什么叫 X1,阿里表示在数学中“X”代表未知数和变量,天猫精灵 X1 作为阿里消费级 AI 产品的开端,也充满着未知和变量,阿里人工智能实验室推出的第一款产品因此命名为 X1。
语音交互是思维方式的变革
自从亚马逊推出 Echo 智能语音音箱以来,全世界都把目光投向了下一代人机交互方式:智能语音。今年恰逢 iPhone 十周年,10 年前 iPhone 用手写人机交互方式彻底颠覆了之前的键盘式人机交互,当年很多 IT 和手机企业都死守键盘交互而最终被甩出历史的舞台。
iPhone 的手写人机交互是苹果公司的首创么?当然不是,之前已经有包括微软在内的多家科技公司研发出了手写触屏人机交互技术,但在 PC 键盘思维统治之下,没有一家公司愿意相信一个没有键盘的手机会成功。苹果推出第一代 iPhone,不仅仅是一个技术和产品路线的选择,而是思维方式和观念的彻底变革。
没有键盘的手机,到底如何成功?十年后的今天,同样的问题又出现了。没有手写触屏的智能终端,到底如何成功?如果仅仅把智能语音人机交互看成是一种技术和产品路线,显然无法成功。就像当年的 iPhone 一样,智能语音人机交互本质上是一种思维方式的变革。
怎么理解智能语音人机交互是一种思维方式的变革呢?
很简单,如果一个智能终端只剩下一个麦克风和音箱来完成人机交互的话,就将失去手写和键盘输入的丰富而明确的选项与空间,只剩上下句对话之间的极为有限的选项和空间,这种极简、有限而又模糊的方式,势必倒逼整个互联网产品与生态的重新思考与再设计。
一款智能语音音箱,仅仅是这个重新思维与再设计过程的起点。只有通过学习和积累实际使用智能语音音箱产品的用户行为大数据,才有可能完成这个重新思维与再设计。经过这个过程的洗礼,下一个阿里的形态,才有可能浮出水面。