文/花满楼
到底什么才是人工智能,怎样统一大家的意见,形成共识,为它定性?这在最近已经成为了科技圈里的热门话题。
一些人将 AI 看做是「认知计算」或者「机器智能」;而另外一些人将「AI」和「机器学习」给完全等同了起来。之所以会出现这么多的说法,主要是因为我们大家现在所说的「人工智能」,并不是某一个单纯的技术,它事实上已经成为了很多学科交叉后的领域:从机器人到机器学习,无所不包。
而人工智能的目的,其实现在绝大多数人已经达成了共识:开发一种能够执行任务,具备某种认知功能的机器,而这种执行任务的能力和认知功能,原本只属于人类智能的范畴当中的。为了达到这种状态,机器必须具备自我学习的能力。
在过去的十年时间里,AI 领域出现了何等惊人的进步,无论是无人自驾驶汽车的逐步成熟,还是语音识别技术的日趋完善。在这样的大背景之下,人工智能已经跳脱出了 20 年前固有的形象,第一次在公司和消费者面前生动立体了起来:它是真的可以影响到我们每天生活的啊!
确实,现在各大媒体报刊都在用头条讲述人工智能领域出现的一举一动,详细阐述长期 AI 战略,但就在这样的火热环境下,大众仍然搞不清楚人工智能究竟是什么,同时,政府其实也在这方面表现的迟钝一些,到底技术自动化对于整个社会有着怎样的影响?
在这个前提下,本文向大家介绍人工智能领域下的六个细分领域,它们中任何一个现如今都是科研领域的大热门。所以,跳脱出人工智能这个笼统的范畴,转而研究这几个细分具体化的领域,也许才是更加靠谱的讨论方式。因为我们未来的数字产品和服务,都将被它们所左右。
在本文中,我会描述它们是什么,为什么重要,如今怎么来应用它们。最后,还会给出一个清单(当然不会是完全详尽的),上面列出来有关这些领域的科技公司。
1. 强化学习(Reinforcement learning)
人们在学习一项新技能的时候,往往会有一个试错的过程,而 RL(强化学习)就是从这个模式中演化而来。在一个标准的 RL 设定中,软件的任务是观察在数字环境中当下所处的状态,并根据已经定好了的最终要达到的效果,采取行动来不断地接近这个目标。在这个不断接近的过程中,软件每执行一个动作,它都能从这个数字环境中得出一个判断:这个动作到底是推动了我向目标前进,还是阻碍了。
就在这种不断试探、确认、再试探的反复过程中,软件逐步找到最优策略和路径。
该领域之所以会引起大家的注意,是 Google DeepMind 在 Atari games 这个项目上应用了这项技术。而目前这项技术在现实中应用的最大价值竟然是给 Google 的数据中心降温!
数据中心中里众多服务器、存储设备、网络设备等等在 24 小时的运行着,同时散发着巨大的热量,采用常规的冷空调系统降温,不仅使整个数据中心的能耗增大,成本也会相应提高一大块。而 Google 在利用了 RL 技术可以使得降温成本下降 40%。
在一个可以被模拟的数字环境(比如视频游戏)中,应用 RL 工具的最大好处就是可以以很低的成本获取到机器学习的数据。这跟「监督式深度学习」(supervised deep learning)有着明显区别,后者获取数据的成本很高,在现实世界中应用的难度也较高。
应用:软件在迷宫中找路,或者是给无人自驾驶技术在城市街道上行驶提供技术支持,还比如在视频游戏中,让 NPC 开始学习使用一些高度拟人化的行为。
处在这个领域里的公司:Google DeepMind, Prowler.io, Osaro, MicroPSI, Maluuba/Microsoft, NVIDIA, Mobileye, OpenAI.
2. 生成式对抗网络
跟那些用来分类、或者执行「回归任务」的可识别人工智能相比,归纳模型基于某个学习对象,可以自发生成一个高度类似的图像。
就比如说,给软件看过一张人脸照片之后,它就能立刻生成一张类似的,机器合成的照片。这个技术的基础其实是:「生成式对抗网络」(generative adversarial networks) 在人工智能领域非常火爆,因为它给人们提供出来了一条直抵「非监控式机器学习」的路径。
生成式对抗网络(Generative Adversarial Nets,GAN)在 2016 年所召开的 NIPS(神经信息处理系统大会)上大放异彩,成为神经网络最受关注的技术之一,其实 GAN 的思想其实十分朴素:有一对模型,一个生成模型(G)生成假样本,最好是六耳猕猴,直叫众人真假难辨;一个判别模型(D)识别假样本,最好是火眼金睛,敢让赝品无所遁形。
那么 GAN 的训练过程就变成了生成模型(G)和判别模型(D)之间的竞争过程——随机从真实样本和由生成模型(G)生成出的「假样本」中取一个,让判别模型(D)去判断是否为真。把这个问题,转化为了一个博弈的问题。利用纳什均衡来得到最终的目标函数。
应用案例:在时间序列中模拟出未来(例如规划未来的工作);通过 2D 图片来恢复 3D 结构;在视频中预测下一帧,在对话界面上开发出自然语言,将音乐和语音进行合成等等。
目前正在做这件事的公司:Twitter Cortex、Adobe、Apple、Prisma、Jukedeck、Creative.ai, Gluru*, Mapillary*, Unbabel.。
3. 具有记忆的网络
这个世界是千姿百态的,为了在这样一个复杂多变的世界里,像人类一样的去归纳、总结、分类,它们必须能持续不断地学习执行新的任务,记住这些任务的执行方式并不断地应用到未来。
但是,传统的神经网络是没有办法做到这一切的。它们只有在「忘记」了某些信息之后,才能连续地执行任务。这个短板有个专有名词:「灾难性遗忘」。原因在于,执行 A 任务时,对于机器来说非常重要的「权重」,到了执行 B 任务的时候就彻底变了。
但是,现在有一些非常强大的系统,能够给予神经网络不同程度的记忆能力。比如「长短期记忆网络」(一个重复型神经网络的衍生品),能够处理和预测时间序列;比如 DeepMind 的「可辨神经计算机」,它能将神经网络和记忆系统给结合起来,从而自行地学习,并组织复杂的数据结构;比如「弹性权重整合算法」,它能够跟当前任务跟前一个任务进行对比,按照不同的重要级别,放慢对某些权重的学习速度;比如「激进式神经网络」,它能够在「目标明确的任务」之间建立一些横向联系,从之前已经习得的任务中提取经验,然后将这些经验应用到新的任务当中。
具体的应用:某些可以归纳经验,应用到新环境里的学习工具;机器人手臂控制系统;无人自驾驶汽车;时间序列预测系统(比如金融市场交易工具、视频、物联网等);自然语言理解及联想词技术。
在该领域的公司: Google DeepMind, NNaisense (?), SwiftKey/Microsoft Research, Facebook AI Research.
4. 即便数据少,也能学习;并且打造更为小巧的模型
一般来说,在大家的理解中,深度学习都是要求海量的学习数据,从而达到世界顶尖的表现水平的。就比如说之前有一个教机器识别图像的研究项目,光是学习材料就包括了 120 万张图片,手动一个个的标注,归纳到了 1000 个物体类别里。
深度学习从某种意义上来说就必须这么做。而且对越是复杂的任务,对数据量的要求就会直线上升,比如说「语音识别」和「机器翻译」,更复杂的任务是把一段语音输入进去,一段文本输出出来。
但目前,研究人员为了降低这其中的复杂程度,决定使用多个神经网络来分解这种复杂性,每一个生成的结果都成为了下一个系统的学习材料。就比如说语音输入后,转化成为音素、音素再转化成为字词、字词再转化成为指令。
如果我们真的想让人工智能系统解决复杂的任务,它们往往特别具有挑战性,成本很高,耗时很长,那么开发多个学习模型,从更少的例子中去得到最优的解决方案,这一个思路就显得尤其重要了。在面向小规模的数据组进行学习的时候,也是存在挑战的,比如「过度拟合问题」,「在处理离群值上」也会很困难。
应用:机器翻译、SqueezeNet 项目。
目前在该领域从事开发工作的公司:Geometric Intelligence/Uber, DeepScale.ai, Microsoft Research, Curious AI Company, Google, Bloomsbury AI.
5. 专门为人工智能而设计的硬件
之所以 AI 技术现在出现了这么惊人的爆发,其中一个原因是图形处理单元(GPU)功能上的延展。不同于中央处理器,GPU 提供了多重平行结构,可以同时处理很多任务。在 GPU 上进行机器学习要明显比在 CPU 上快很多。
自从 2012 年 AlexNet 一战成名以后,如果说机器学习是一场淘金热的话,那么 GPU 就成为了淘金的铲子。NVIDIA 一直以来引领这股风潮,带领我们走进了 2017 年,在这方面它的实力遥遥领先于 Intel、Qualcomm、AMD、 以及 Google 公司。
但是,GPU 毕竟不是专门为机器学习、推理来开发的一款产品,它们是专门为视频游戏来提供图像支持处理的,而且它们往往在计算性能上面往往拥有高精准度,是以牺牲内存带宽和数据吞吐量而换来的。
所以,正是基于这样的考虑,现在很多人开始创办初创公司,还有一些大公司,比如 Google 也自己开设新的项目,专门为机器学习项目来量体裁衣开发新的硬件。这种全新的硬件所具有的特点是:存储带宽大,高计算密度,能耗相对较低。在这种硬件的基础上,我们可以进行更加快速,更多高效的模型学习,更好的用户体验,用户跟产品交互的次数也变多了,最终带来更加丰富的数据量,通过优化再提升模型的表现,以此来循环往复进行机器学习。
应用:快速学习模型(尤其是在图像上面),依托物联网设备来运行 AI 系统,永远处于「倾听」状态之中的物联网设备,以云基础设施作为服务,无人自驾驶汽车,无人机和机器人。
目前在这个领域的公司: Graphcore, Cerebras, Isocline Engineering, Google (TPU), NVIDIA (DGX-1), Nervana Systems (Intel), Movidius (Intel), Scortex
6. 模拟环境
之前我们就讨论过,为人工智能系统来生成学习数据,这项工作充满了挑战性。更重要的是,人工智能得出的结论必须能够跟我们的现实生活,应用情景息息相关。于是,在这样的考量之下,通过开发一个数字化的环境,模拟现实世界的物理机制和行为,这将给我们在评估和训练人工智能上面提供一个非常理想的平台。在这样一个平台上,我们会更加了解人工智能学习的方式,提升它们的途径,同样也能给我们带来真正能够可以转化成为现实应用的训练模型。
应用:智能城市、工业设计、游戏开发、驾驶培训系统、制造业。
目前在这个领域的公司: Improbable, Unity 3D, 微软 ( 开发 Minecraft 的游戏部门), Google DeepMind/暴雪, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard
本文来源:Medium 译文创见/TECH2IPO 花满楼编译,转载请注明出处