楊強：深度學習是富人的遊戲 我要顛覆它

杨强：深度学习是富人的游戏我要颠覆它

网易科技讯 8月12日消息，由中国计算机学会（CCF）主办、雷锋网承办的全球人工智能与机器人峰会（GAIR）在深圳召开，在峰会现场，香港科技大学教授杨强发表了名为《人工智能成功的几个必要条件》的主题演讲。

杨强表示：人工智能已经在深度学习方面取得一些成就，这些成绩依赖于大数据的收集、处理和应用，深度学习是立即将学习效果进行反馈，而机器的强化学习可以将反馈延迟一段时间，这种延迟反馈的处理上，不光需要大数据，同时还需要高质量的小数据。

他认为，就深度学习而言，目前人为地给机器设置学习界限的做法有诸多限制，影响机器学习的效果，如果把深度学习和强化学习相结合，机器学习的状态就不需要人为设定，这样的学习效率会更高，效果会更好。

对于迁移学习，他认为迁移学习具有通用性和个性化的特点，就是在一个数据领域已经有了成熟的数据模型，在新的未知领域也能建立一个模型，将已经学习好的模型迁移到这个新建立的未知模型中，实现机器更高效更省时的学习。迁移学习分为样本迁移、特征迁移、模型迁移等方式。

目前人工智能在应用方面要想取得成功，需要有清晰的商业模式目标、高质量续反馈的大数据、清晰的问题定义和领域边界、擅长应用和算法的人工智能跨界人才以及强大的计算能力。

以下是杨强教授的演讲实录：

大家好！今天早上听了非常精彩的报告，在这里我要跟大家分享有一些我个人的想法，尤其是我们今天，我们大家都知道，人工智能有了很多的成就，我们能不能总结出一点点经验，能供给给我们后面的人来使用。

首先我们看到人工智能尤其在商业上有很多的成就，我们看到在图象识别，在语音识别，包括在大规模的产品推荐，我们今天每个人都是这些服务的享用者，我们都受益于它。但是我们有没有想过，这些人工智能的成就到底来自哪些条件的满足，为什么这些成就十年以前二十年以前却没有呢？所以我们下面要来问问这些问题。

在问这些问题之前，我们首先要来区分人工智能的两个研究的分支，一个是人工智能的科学，人工智能的科学我们要追溯到它的鼻祖图灵问的这个最关键最中心的问题：就是机器可以思维吗？六十多年的努力，大家都是计算机学家，各行各业都在朝着这个方面努力，我们造更快的计算机，我们会聚更多的数据，我们研究更高级的算法，都是在试图回答这样的问题。

今天人工智能的这些成就也就了机会让我们把它应用在我们的生活当中，所以这又带来一个崭新的问题，就是我们如何能够去预测一个人工智能的技术，是不是能够产生它应该有的作用。我们都说，如果它的应用面很广也是它成功的一个标志。所以今天我想来看看人工智能在应用方面到底有哪些条件来驱使它让它产生应该有的应用面。

在这里我要说一下，人工智能已经有的很大的成就，比如机器学习，深度学习方面，但是在现在我们看到的一些端倪，已经给了我们很兴奋的理由，就是强化学习，强化学习不仅仅能够学习人的行为，而且能够特别好的使用这种延迟反馈，这种反馈可以延迟在一个时间段上。明天我们能不能发明一种新的学习方法，能让它在小数据上也能适用？这就是我下面要讲的迁移学习。所以我们也在这个角度来看，我们可以使用哪一种人工智能技术让它产生应该有的作用。

提到强化学习，刚刚Michael Wooldridge教授说到Deepmind，我也是Deepmind的粉丝，这是Deepmind的一个流程，我们观察到流程以后，紧接着我们可以理解这是一个计算机内部的表达形式，一个适量，这个适量加上我们得到的反馈，就可以帮助我们改进我们的策略，这个策略是什么呢？就是我们所说的平常我们做行为的规划，我们工作的规划，游戏里面的动作就对应着一个策略，这个策略又返回来，产生一个新的界面，我们观察到这个界面又可以回去学习。大家看一下，这里面很强的一点是这个反馈是不断给的，而且我们到终点的时候，我们才知道我们到底是赢家还是输家。我们在现实生活中是不是有很多这样的例子，是没有用深度学习来选择的。比如我们上一门课，只有考试的时候才知道我们的成就，我们投资一支股票，过了很长时间才知道效果怎么样，所以这是延迟的反馈。

但是这种学习有一个弱点，就是如果我们人为的来定义这个策略里面的空间，叫做状态空间的话，这个限制是非常大的，因为我们人永远定不准，我们永远不能事先地预计这个世界会发生什么，这里面有来了谷歌Deegming的第二个目标，就是端到端的深度学习，该有的状态让在学习器内部表达好了，整个我们形成了从输入端到输出端的端到端的深度学习，我们经过几百轮的学习之后，自我学会了怎么更好地玩一个游戏，这是当时的学习效果，每个图对应不同的游戏。横轴是随着时间、随着游戏的轮数越来越多，它的效果我们看到的是越来越好，这和我们人的学习过程是一样的。我们说这个人的学习效率就大大地提高，学习效果大大提高。

我们总结一下，这些成功来自于什么呢？我们可以首先看到它有非常清晰的目标，什么叫赢什么叫输，延到商业上也要有很强的目标。其次需要高质量的大数据，这里我特别要强调的是高质量，这个数据要持续地反馈，不能收一次就完了，不断地到达才能使得我们学习不断地提高。同时一定要有反馈，反馈的方式和内容和算法一定要匹配。所以我们常常听到有一些人说，我这个领域有了几千万样本的数据，一定可以做人工智能，我要告诉他不一样，因为首先你那个样本不一定是针对这个算法收集的，其次你的算法不一定持续得到，最后你的反馈不一定很好。

第三是问题不能非常宽泛和模糊，定义一定要非常清楚，清楚到像下棋一样，我们知道什么时候边界就达到了。另外一个是我们需要既懂人工智能又懂商业领域的人才，我们说这样的人才到哪儿去找，从今天还是大家就关注身边善于学习的人，着重培养他，这样的人才能把两个完全不同的垂直领域联结在一起的人才是必不可少的。最后我要提的是计算能力，今天大家都有很强的计算能力，我们有云计算、并行计算、GPU，所以这个能力也是必不可少的。

再下面我要讲的是另外一个例子，今天我就用例子再来继续阐述我刚刚讲的五个条件，这里我要讲，我们现在知道对话系统是人工智能的热点，甚至有的公司出来说对话系统，就是这种人机交互的对话系统，可能是下一个入口，下一个搜索引擎，我们先不管这些商业的说法，我们来看一看现在我们市场上有的这些对话系统，我们可以大致把它们分两类，首先我们看到有很多是闲聊类的，我们大概很清楚的小冰，很幽默，但是也止于闲聊，还有一类是功能类，当我们打电话给酒店、航空公司，在寻求特殊具体垂直服务的时候，往往会受益于这样一种功能型的对话。我们知道在不久以前，甚至很多的公司也有这种对话，但是它们的方式都是说你要这个服务按1，要那个服务按2，我们感觉体验非常不好。

从技术上来说，这种对话系统也分成两种，第一种最早出现的是基于规则，很多人专家来写这些规则，这些就像在符号领域，它的好处是很准确的，但是不好的地方就是很难扩展，和数据无关，对数据不够敏感。另外有很多不同的意外事件都不能应付，所以现在大家比较关注的是机器学习的算法。

我们在香港科技大学的实验室里面也在进行研究，我们研究的一个主要目的是说如果我们再把人工智能往前推进一步，在深度学习之后，到底还有哪些技术是下一个热点，我们关心的是明天的技术，这里我要说的是我们有一个三明治式的一个三层结构：第一层就是我们熟知的深度学习，这是一个递归的深度学习；在这个之上，我们有一个策略的学习器，叫做强化学习的学习器，在这里我要特别强调的是强化学习里面最难的一部分是当人工智能的机器人它不能全部观察周围的世界，只能部分观察，所以这个有一个很怪的名字，叫做基于部分观察的马尔可夫的决策过程，简化来说它是强化学习里非常难的阶段。第三个就是迁移学习，它能让我们把一个做好的模型迁移到一个新的领域来，所以我们希望这样一个系统它能具有以下这儿功能，比方说闲聊、推荐、引导、提醒、学习，这个我们看到如果它具有这些功能的话，它就像一个真人一样。

怎么达到这样呢？我们首先要有基本的对话功能，就是深度学习的对话功能，其次我们要有一个策略，这个策略要能引导对话的对象去完成一个任务。最后我们要能实现个性化，我们最好能够贴近用户，让用户跟它对话以后，这个体验觉得非常好，非常简洁明了。怎么才能达到这一点，这就是我们的一些例子，比方说我们现在和一个O2O的公司合作，用真实的数据来训练这个系统，这个绿色的就是用户提的问题，白色的是系统，我们这个中文名字叫做“魔镜系统”，就是白雪公主里面的魔镜，当然这是一个好的魔镜。

下面我给大家做一个演示，请把声音打开。

刚才的这个系统，它的演示，我们是把整个的对话系统给放到一个机器人的里面，让机器人通过语音跟我们回答，实际上这个真正的系统是在手机上可以和人交流的。

这里我要跟我们大家熟悉的一些系统来做比较，比方说小冰的话，左边是用户提的问题，绿色的，黄色这里是小冰的回答，这是真实的一个截图。我们看小冰虽然很调侃，我们也试着用siri来做回答，siri是基于搜索，它很多的就是抱歉没有找到匹配。

我们这样一个系统之所以研究它，是我们对背后的系统感兴趣，所以有这样的应用领域，我们刚刚讲的几个条件，首先我们有很明确的目标，有很好的反馈，有不断到来的数据，然后我们也有跨界的人才，我们和O2O公司的联络。另外这个问题最后我们是有非常明确的，不一定有明确的边界条件，使得我们最后把这个问题的表达就好像是在下围棋一样，因此我们这里面也可以考虑说我们现在谈话谈到这儿，到底离我们的目标有多远，这就好像在下棋里面我们有一个状态网络，我们对现在的状态有一个估算，同时我们可以往下问的不同的话，可以当做我们下面要下的棋子，所以这和阿尔法狗的思维有很相象的地方。

有一个非常有趣的现象，就是这样一个三层的模型，我刚才讲的深度学习和强化学习还有迁移学习，这样一个模型是非常通用的，对话领域是我们的适用场所，这样的模型把它放到完全不一样的应用领域去它也能工作，这就是通用型的发展目标，比如我们有的学生就把它应用在大家公认很难的领域，就是股市大势的预测。这是A股里面的某个股票，我们拿过去好多年的数据，十年的数据做训练，所有数据之间的连接，首先我们产生不同的状态，让这个状态之间能够互相迁移。其次是状态和状态之间的变化，我们用一个强化学习来模拟，最后我们发现深度学习的隐含层里面它自动产生出来的几百个状态，基本就把这几年的经济状况给了一个很完善的总结，所以它可以给一个非常好的大势的走向，我们也做了一些测试。

这个例子当然是在金融领域的一个小的试验，所以我应该说这个是我们有所保留的，但是我想说的事情是一旦我们对一个领域有了足够的了解，一旦这个领域足够的数据我们掌握了，我们就可以套用人工智能，刚刚讲的一个边界清晰的方法来解决它，以达到通用型的人工智能的目的。

我下面要讲的，最后一个题目就是如何能做到个性化，这里其实有两个题目：一个是我个人就是有一个很强烈的感觉，深度学习是离不开大数据的，大数据又离不开大公司，我们熟知的一些大公司都是大数据的拥有者，我们有一些中型和小型公司没有大数据，也没有这个能力去取得大数据。所以这里我说像深度学习，它的红利来自于特征的选取，特征的准确选取又离不开大数据，这些大数据只有富人才能得到。

强化学习是把重点放在另一个角度，就是反馈，就是世界对系统的反馈，这个反馈可以延迟，但是它的训练也离不开大数据，也是一个富人的游戏。我们要达到世界上每一个人都可以用到人工智能，我们一定要做这样的研究，就是如何能把一个大的模型，大数据训练出来的模型迁移到一个小数据的范围内，让它能在一个小数据上面也能起作用。它还带来一个副产品，这个副产品就叫做个性化，也就是如果我们让一个产品能够有很强的用户感觉，用户体验，那么我们一定要达到个性化的效果，这个就是我们之所以做迁移学习的目的。

什么是迁移学习呢？就是我们在一个数据领域已经有了很好的领域建立了非常好的模型，我们换一个模型也能让它应用，这样既节省了资源，又达到时间和效果的好处。所以这样的一个学习过程，把一个已有模型迁移到一个未知领域，就叫做迁移学习。所以我们人是自动地就会做这种举一反三的嫌疑学习了，比如我们学会骑自行车以后，我们又去学摩托车，发现很简单，我们打球、学语言、学物理化学也有很多这样的例子。迁移学习大家也有了将近十年的努力，也积累了大量的文献，这里我总结一下，通过几种不同的方式，我们可以达到迁移，每一种方式都是很直观的。第一种就是我们在数据集里面找到跟目标领域相似的数据，把这个数据放大多倍，这个叫做样本迁移，通过样本来达到迁移的目的。其次我们可以观察到有些相似的特征，然后利用这些特征，在不同的层次的特征，来进行自动的迁移，这种叫做特征迁移。然后我们还可以做到基于模型的迁移，这是这样的一个工作。利用上千万的图象来训练一个图象识别的系统，我们遇到一个新的图象领域，我们就不用再去找几千万个图象来训练了，我们就把原来的那个迁移到新的领域，所以在新的领域只用几万张图片就够，同样可以得到很高的效果，这叫做模型迁移，模型迁移的一个好处是我们可以区分，就是可以和深度学习结合起来，我们可以区分不同层次可迁移的度，相似度比较高的那些层次他们被迁移的可能性就大一些。最后我们也可以通过关系来进行迁移，比方说社会网络，社交网络之间的迁移。

如果用了迁移学习，我刚才讲一个副产品就是从很多人的大数据迁移到一个人的小数据上，这样可以达到一个效果，比方说我们仅用一个用户的九个对话来训练这样的一个迁移学习的效果，从一个三万人得到的大模型迁移到一个人的小模型身上，这个效果在强化学习的基础上做起来就特别地得心应手，因为强化学习就使得我们能够把迁移的结果变成短路，就好像是在电路当中的短路，使得我们能够不用很烦琐的去问用户很多同样的问题。

这里我给大家也展示一个例子。

对，刚刚有几个部分，其实系统都没有具体地去问答案，它基本上就在问还是上一次那个答案吗？还是送到你家吗？这样就节省了很多，所以就是这样。

最后我就来再总结一下，就是我刚刚讲的这几个必要条件，刚才我是通过第一个例子谷歌Deepmine，第二个是强化迁移学习，就是三层的结构，同时我讲了具有通用性、个性化的学习。这里我要再次强调一下我们总结的几个条件：一个是要有清晰边界的问题定义，一定要有持续不断的外部反馈，要有足够的计算资源、要有顶尖的数据科学家还要有足够质量的大数据。

我的讲演到此结束，谢谢大家！

责任编辑：张彬彬_NT5025

杨强：深度学习是富人的游戏 我要颠覆它

相关推荐

杨强：深度学习是富人的游戏我要颠覆它