人工智能領域中日漸升溫的幾個分支領域

人工智能领域中日渐升温的几个分支领域

文/花满楼

到底什么才是人工智能，怎样统一大家的意见，形成共识，为它定性？这在最近已经成为了科技圈里的热门话题。

一些人将 AI 看做是「认知计算」或者「机器智能」；而另外一些人将「AI」和「机器学习」给完全等同了起来。之所以会出现这么多的说法，主要是因为我们大家现在所说的「人工智能」，并不是某一个单纯的技术，它事实上已经成为了很多学科交叉后的领域：从机器人到机器学习，无所不包。

而人工智能的目的，其实现在绝大多数人已经达成了共识：开发一种能够执行任务，具备某种认知功能的机器，而这种执行任务的能力和认知功能，原本只属于人类智能的范畴当中的。为了达到这种状态，机器必须具备自我学习的能力。

在过去的十年时间里，AI 领域出现了何等惊人的进步，无论是无人自驾驶汽车的逐步成熟，还是语音识别技术的日趋完善。在这样的大背景之下，人工智能已经跳脱出了 20 年前固有的形象，第一次在公司和消费者面前生动立体了起来：它是真的可以影响到我们每天生活的啊！

确实，现在各大媒体报刊都在用头条讲述人工智能领域出现的一举一动，详细阐述长期 AI 战略，但就在这样的火热环境下，大众仍然搞不清楚人工智能究竟是什么，同时，政府其实也在这方面表现的迟钝一些，到底技术自动化对于整个社会有着怎样的影响？

在这个前提下，本文向大家介绍人工智能领域下的六个细分领域，它们中任何一个现如今都是科研领域的大热门。所以，跳脱出人工智能这个笼统的范畴，转而研究这几个细分具体化的领域，也许才是更加靠谱的讨论方式。因为我们未来的数字产品和服务，都将被它们所左右。

在本文中，我会描述它们是什么，为什么重要，如今怎么来应用它们。最后，还会给出一个清单（当然不会是完全详尽的），上面列出来有关这些领域的科技公司。

1. 强化学习（Reinforcement learning）

人们在学习一项新技能的时候，往往会有一个试错的过程，而 RL（强化学习）就是从这个模式中演化而来。在一个标准的 RL 设定中，软件的任务是观察在数字环境中当下所处的状态，并根据已经定好了的最终要达到的效果，采取行动来不断地接近这个目标。在这个不断接近的过程中，软件每执行一个动作，它都能从这个数字环境中得出一个判断：这个动作到底是推动了我向目标前进，还是阻碍了。

就在这种不断试探、确认、再试探的反复过程中，软件逐步找到最优策略和路径。

该领域之所以会引起大家的注意，是 Google DeepMind 在 Atari games 这个项目上应用了这项技术。而目前这项技术在现实中应用的最大价值竟然是给 Google 的数据中心降温！

数据中心中里众多服务器、存储设备、网络设备等等在 24 小时的运行着，同时散发着巨大的热量，采用常规的冷空调系统降温，不仅使整个数据中心的能耗增大，成本也会相应提高一大块。而 Google 在利用了 RL 技术可以使得降温成本下降 40%。

在一个可以被模拟的数字环境（比如视频游戏）中，应用 RL 工具的最大好处就是可以以很低的成本获取到机器学习的数据。这跟「监督式深度学习」（supervised deep learning）有着明显区别，后者获取数据的成本很高，在现实世界中应用的难度也较高。

应用：软件在迷宫中找路，或者是给无人自驾驶技术在城市街道上行驶提供技术支持，还比如在视频游戏中，让 NPC 开始学习使用一些高度拟人化的行为。

处在这个领域里的公司：Google DeepMind, Prowler.io, Osaro, MicroPSI, Maluuba/Microsoft, NVIDIA, Mobileye, OpenAI.

2. 生成式对抗网络

跟那些用来分类、或者执行「回归任务」的可识别人工智能相比，归纳模型基于某个学习对象，可以自发生成一个高度类似的图像。

就比如说，给软件看过一张人脸照片之后，它就能立刻生成一张类似的，机器合成的照片。这个技术的基础其实是：「生成式对抗网络」（generative adversarial networks) 在人工智能领域非常火爆，因为它给人们提供出来了一条直抵「非监控式机器学习」的路径。

生成式对抗网络（Generative Adversarial Nets，GAN）在 2016 年所召开的 NIPS（神经信息处理系统大会）上大放异彩，成为神经网络最受关注的技术之一，其实 GAN 的思想其实十分朴素：有一对模型，一个生成模型（G）生成假样本，最好是六耳猕猴，直叫众人真假难辨；一个判别模型（D）识别假样本，最好是火眼金睛，敢让赝品无所遁形。

那么 GAN 的训练过程就变成了生成模型（G）和判别模型（D）之间的竞争过程——随机从真实样本和由生成模型（G）生成出的「假样本」中取一个，让判别模型（D）去判断是否为真。把这个问题，转化为了一个博弈的问题。利用纳什均衡来得到最终的目标函数。

应用案例：在时间序列中模拟出未来（例如规划未来的工作）；通过 2D 图片来恢复 3D 结构；在视频中预测下一帧，在对话界面上开发出自然语言，将音乐和语音进行合成等等。

目前正在做这件事的公司：Twitter Cortex、Adobe、Apple、Prisma、Jukedeck、Creative.ai, Gluru*， Mapillary*， Unbabel.。

3. 具有记忆的网络

这个世界是千姿百态的，为了在这样一个复杂多变的世界里，像人类一样的去归纳、总结、分类，它们必须能持续不断地学习执行新的任务，记住这些任务的执行方式并不断地应用到未来。

但是，传统的神经网络是没有办法做到这一切的。它们只有在「忘记」了某些信息之后，才能连续地执行任务。这个短板有个专有名词：「灾难性遗忘」。原因在于，执行 A 任务时，对于机器来说非常重要的「权重」，到了执行 B 任务的时候就彻底变了。

但是，现在有一些非常强大的系统，能够给予神经网络不同程度的记忆能力。比如「长短期记忆网络」（一个重复型神经网络的衍生品），能够处理和预测时间序列；比如 DeepMind 的「可辨神经计算机」，它能将神经网络和记忆系统给结合起来，从而自行地学习，并组织复杂的数据结构；比如「弹性权重整合算法」，它能够跟当前任务跟前一个任务进行对比，按照不同的重要级别，放慢对某些权重的学习速度；比如「激进式神经网络」，它能够在「目标明确的任务」之间建立一些横向联系，从之前已经习得的任务中提取经验，然后将这些经验应用到新的任务当中。

具体的应用：某些可以归纳经验，应用到新环境里的学习工具；机器人手臂控制系统；无人自驾驶汽车；时间序列预测系统（比如金融市场交易工具、视频、物联网等）；自然语言理解及联想词技术。

在该领域的公司: Google DeepMind, NNaisense (?)， SwiftKey/Microsoft Research, Facebook AI Research.

4. 即便数据少，也能学习；并且打造更为小巧的模型

一般来说，在大家的理解中，深度学习都是要求海量的学习数据，从而达到世界顶尖的表现水平的。就比如说之前有一个教机器识别图像的研究项目，光是学习材料就包括了 120 万张图片，手动一个个的标注，归纳到了 1000 个物体类别里。

深度学习从某种意义上来说就必须这么做。而且对越是复杂的任务，对数据量的要求就会直线上升，比如说「语音识别」和「机器翻译」，更复杂的任务是把一段语音输入进去，一段文本输出出来。

但目前，研究人员为了降低这其中的复杂程度，决定使用多个神经网络来分解这种复杂性，每一个生成的结果都成为了下一个系统的学习材料。就比如说语音输入后，转化成为音素、音素再转化成为字词、字词再转化成为指令。

如果我们真的想让人工智能系统解决复杂的任务，它们往往特别具有挑战性，成本很高，耗时很长，那么开发多个学习模型，从更少的例子中去得到最优的解决方案，这一个思路就显得尤其重要了。在面向小规模的数据组进行学习的时候，也是存在挑战的，比如「过度拟合问题」，「在处理离群值上」也会很困难。

应用：机器翻译、SqueezeNet 项目。

目前在该领域从事开发工作的公司：Geometric Intelligence/Uber, DeepScale.ai, Microsoft Research, Curious AI Company， Google, Bloomsbury AI.

5. 专门为人工智能而设计的硬件

之所以 AI 技术现在出现了这么惊人的爆发，其中一个原因是图形处理单元（GPU）功能上的延展。不同于中央处理器，GPU 提供了多重平行结构，可以同时处理很多任务。在 GPU 上进行机器学习要明显比在 CPU 上快很多。

自从 2012 年 AlexNet 一战成名以后，如果说机器学习是一场淘金热的话，那么 GPU 就成为了淘金的铲子。NVIDIA 一直以来引领这股风潮，带领我们走进了 2017 年，在这方面它的实力遥遥领先于 Intel、Qualcomm、AMD、以及 Google 公司。

但是，GPU 毕竟不是专门为机器学习、推理来开发的一款产品，它们是专门为视频游戏来提供图像支持处理的，而且它们往往在计算性能上面往往拥有高精准度，是以牺牲内存带宽和数据吞吐量而换来的。

所以，正是基于这样的考虑，现在很多人开始创办初创公司，还有一些大公司，比如 Google 也自己开设新的项目，专门为机器学习项目来量体裁衣开发新的硬件。这种全新的硬件所具有的特点是：存储带宽大，高计算密度，能耗相对较低。在这种硬件的基础上，我们可以进行更加快速，更多高效的模型学习，更好的用户体验，用户跟产品交互的次数也变多了，最终带来更加丰富的数据量，通过优化再提升模型的表现，以此来循环往复进行机器学习。

应用：快速学习模型（尤其是在图像上面），依托物联网设备来运行 AI 系统，永远处于「倾听」状态之中的物联网设备，以云基础设施作为服务，无人自驾驶汽车，无人机和机器人。

目前在这个领域的公司： Graphcore, Cerebras, Isocline Engineering, Google (TPU)， NVIDIA (DGX-1)， Nervana Systems (Intel)， Movidius (Intel)， Scortex

6. 模拟环境

之前我们就讨论过，为人工智能系统来生成学习数据，这项工作充满了挑战性。更重要的是，人工智能得出的结论必须能够跟我们的现实生活，应用情景息息相关。于是，在这样的考量之下，通过开发一个数字化的环境，模拟现实世界的物理机制和行为，这将给我们在评估和训练人工智能上面提供一个非常理想的平台。在这样一个平台上，我们会更加了解人工智能学习的方式，提升它们的途径，同样也能给我们带来真正能够可以转化成为现实应用的训练模型。

应用：智能城市、工业设计、游戏开发、驾驶培训系统、制造业。

目前在这个领域的公司： Improbable, Unity 3D, 微软 ( 开发 Minecraft 的游戏部门)， Google DeepMind/暴雪， OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard

本文来源：Medium 译文创见/TECH2IPO 花满楼编译，转载请注明出处

人工智能领域中日渐升温的几个分支领域

相关推荐