近年来,人工智能(AI)强势崛起,特别是去年AlphaGo和韩国九段棋手李世石的人机大战,让我们深刻地领略到了人工智能技术的巨大潜力。4月10日,中国围棋协会和浙江省体育局携手谷歌共同宣布,三方联合主办“中国乌镇·围棋峰会”,届时AlphaGo将再度与顶尖人类棋手柯洁对弈。
数据是载体,智能是目标,而机器学习是从数据通往智能的技术、方法途径。因此,机器学习是数据科学的核心,是现代人工智能的本质。
机器学习的三个阶段
通俗地说,机器学习就是从数据中挖掘出有价值的信息。数据本身是无意识的,它不能自动呈现出有用的信息。怎样才能找出有价值的东西呢?第一步要给数据一个抽象的表示;接着基于表示进行建模;然后估计模型的参数,也就是计算;为了应对大规模的数据所带来的问题,我们还需要设计一些高效的实现手段,包括硬件层面和算法层面。统计是建模的主要工具和途径,而模型求解大多被定义为一个优化问题或后验抽样问题,具体而言,频率派方法其实就是一个优化问题。而贝叶斯模型的计算则往往牵涉蒙特卡罗随机抽样方法。因此,机器学习是计算机科学和统计学的交叉学科。
借鉴计算机视觉理论创始人马尔(Marr)关于计算机视觉的三级论定义,我把机器学习也分为三个阶段:初级、中级和高级。
初级阶段是数据获取以及特征的提取。
中级阶段是数据处理与分析,它又包含三个方面。
首先是应用问题导向,简单地说,它主要应用已有的模型和方法解决一些实际问题,可以理解为数据挖掘。其次,根据应用问题的需要,提出并发展模型、方法、算法以及研究支撑它们的数学原理、理论基础等,这是机器学习学科的核心内容。最后,通过推理达到某种智能。
高级阶段是智能与认知,即实现智能的目标。数据挖掘和机器学习本质上是一样的,其区别是数据挖掘更接近于数据端,机器学习则更接近于智能端。
统计与计算“珠联璧合”
现在大家达成了一个共识:如果你在用一种机器学习方法,而不懂其基础原理,是一件非常可怕的事情。正是由于这个原因,目前学术界对深度学习还是心存疑虑的。尽管深度学习已经在实际应用中展示出其强大的能力,但其中的原理目前大家还不是太清楚。
计算机专家通常具有强大的计算能力和解决问题的直觉,而统计学家擅长于理论分析和问题建模,因此,两者具有很好的互补性。Boosting算法、支持向量机(SVM)、集成学习和稀疏学习是机器学习界也是统计界在近十年或者近二十年来最为活跃的方向,这些成果是统计学界和计算机科学界共同努力成就的。计算机界和统计界的通力合作,成就了机器学习从20世纪90年代中期到21世纪00年代中期的黄金发展时期。机器学习现在已成为统计学的一个主流方向,许多著名大学的统计系纷纷从机器学习领域招聘教授。计算在统计领域已经变得越来越重要,传统多元统计分析以矩阵分解为计算工具, 现代高维统计则是以优化为计算工具。
霍普克洛夫特教授是图灵奖得主,我曾经与他交谈过几次,他认为计算机科学发展到今天, 机器学习是核心。现在计算机界戏称机器学习为“全能学科”,它无所不在。除了有其自身的学科体系外,机器学习还有两个重要的辐射功能。一是为应用学科提供解决问题的方法与途径。二是为一些传统学科,比如统计、理论计算机科学、运筹优化等找到新的研究问题。因此,大多数世界著名大学的计算机学科把机器学习或人工智能列为核心方向。
然而,机器学习是一门应用学科,它需要在工业界发挥作用,解决实际问题。幸运的是,机器学习确实能被用来帮助工业界解决问题,特别是当下的热点,比如说深度学习、AlphaGo、无人驾驶汽车、人工智能助理等对工业界产生巨大影响。当今IT的发展已从传统的微软模式转变到谷歌模式。微软模式可以理解为制造业,而谷歌模式则是服务业。谷歌搜索完全是免费的,服务社会,他们的搜索技术做得越来越极致,同时创造的财富也越来越丰厚。
财富蕴藏在数据中,而挖掘财富的核心技术则是机器学习,因此谷歌认为自己是一家机器学习公司。深度学习作为当今最有活力的机器学习方向,在计算机视觉、自然语言理解、语音识别、智力游戏等领域的颠覆性成就,造就了一批新兴创业公司。工业界对机器学习领域的人才有大量需求。不仅需要代码能力强的工程师,也需要擅长数学建模和解决问题的科学家。
机器学习发展的启示
机器学习的发展历程告诉我们:发展一个学科需要务实的态度。时髦的概念和名字无疑对学科的普及有一定的推动作用,但学科的根本还是其研究的问题、方法、技术和支撑的基础,以及为社会产生的价值。
“机器学习”是个很酷的名字,简单地按照字面理解,它的目的是让机器能像人一样具有学习能力。但在其十年的黄金发展期,机器学习界并没有过多地炒作“智能”或者“认知”,而是关注于引入统计学等来建立学科的理论基础,面向数据分析与处理,以无监督学习和有监督学习为两大主要研究课题,提出并开发了一系列模型、方法和计算算法等,切实地解决了工业界所面临的一些实际问题。近几年,因为大数据的驱动和计算能力的极大提升,一批面向机器学习的底层架构先后被开发出来。神经网络其实在20世纪80年代末或90年代初就被广泛研究,但后来沉寂了。近几年,基于深度学习的神经网络强势崛起,给工业界带来了深刻的变革和巨大的机遇。深度学习的成功不是源自脑科学或认知科学的进展,而是因为大数据的驱动和计算能力的极大提升。
机器学习的发展诠释了多学科交叉的重要性和必要性。然而这种交叉不是简单地知道几个名词或概念就可以实现的,它需要真正的融会贯通。该领域的大师级学者非常务实,从不提那些空洞的概念和框架,他们遵循自下而上的方式,从具体问题、模型、方法、算法等着手,一步一步实现系统化。可以说,机器学习是由学术界、工业界、创业界(或竞赛界)等合力造就的,学术界是引擎,工业界是驱动,创业界是活力和未来。学术界和工业界应该有各自的职责和分工。学术界的职责在于建立和发展机器学习学科,培养机器学习领域的专门人才;而大项目、大工程更应该由市场来驱动,由工业界来实施和完成。
机器学习在我国得到了广泛的关注,也取得了一定的成绩,但与国际领先水平相比差距很大,缺乏竞争力和影响力。作为一名高校研究人员,我深切地认为,我国人工智能发展的根本出路在于教育。只有培养出一批批数理基础深厚、动手执行力极强,有真正的融合交叉能力和国际视野的人才,我们才会有大作为。