2017 年是 ImageNet 挑战赛举办的最后一年,夏威夷当地时间 7 月 26 日,作为 ImageNet 创始人之一的李飞飞和他的学生邓嘉在 CVPR 2017 期间的一场 workshop 上做了主题演讲,他们对 ImageNet 八年来所走的路做了深情回顾和总结。以下是雷锋网编辑整理。
ImageNet 创办至今共举办八届挑战赛,从最初的算法对物体进行识别的准确率只有 71.8% 上升到现在的 97.3%,识别错误率已经远远低于人类的 5.1%。
尽管 ImageNet 挑战赛已结束了它短暂的生命周期,但 ImageNet 数据集还会一直存在,截止目前已经有超过 1300 万张图片,并且未来还会增长,继续为计算机视觉领域做贡献。
谈及为什么提出建 ImageNet 数据集,李飞飞说“尽管很多人都在注意模型,但我们要关心数据,数据将重新定义我们对模型的看法”。
而时间也最终证明了李飞飞最初的想法是正确的,没有能反映真实世界的训练数据,再好的算法模型也没有用。
ImageNet 创立之初
2005 年,李飞飞从加州理工大学拿到电子工程学博士学位后进入了学术界,开始在伊利诺伊州香槟分校担任教职。那时她看到整个学术界和工业界重心都放在如何做出更好的算法,认为无论数据如何,只要算法好就会有好的决策。她意识到了这样做的局限,并且想到了一个解决方法,就是做一个能详细描绘出整个世界物体的数据集。她回忆起当时的情景深情地说道;“当时每个人对此都是一副怀疑的态度,但是 Kai Li( 李凯,普林斯顿 Princeton 大学教授,美国工程院院士) 做了两件厉害的事情,他说:‘飞飞,你的教授生涯刚刚开始,你想要做的事情,我实验室的所有的机器都可以拿来帮你,而且我还会给你一个学生。’如果没有这样的支持,我是没办法开始做 ImageNet 的。”
于是李飞飞、Jia Deng( 邓嘉,李飞飞的学生) 等研究员在 CVPR 2009 上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,没过多久,这个数据集就迅速发展成一项竞赛,通过对数据集中的物体进行识别,选出识别错误率最低的算法。
赛事一经公布,便有多家科技企业参与进来。2010 年选出的第一界竞赛优胜者,现在都出任了百度、谷歌和华为等公司高管(如林元庆,余凯,张潼)。马修·泽勒(Matthew Zeiler)2013 年赢得 ImageNet 挑战赛后,在获奖算法基础上创办了 Clarifai 公司,目前获得了 4000 万美元风险投资。 谷歌与两位牛津大学的研究者共同获得 2014 年的 ImageNet 挑战赛冠军。随后,牛津大学的两位研究人员很快就被谷歌吸收,并进入谷歌收购的 DeepMind 实验室工作。 现在,参与 ImageNet 挑战赛获奖的企业和个人已遍布科技行业的每个角落。
ImageNet 遇到难题
关于如何利用数据体现世界多样性一直是当时李飞飞需要解决的难题之一,最终她留意到了 WordNet。 在 WordNet 里面,dog(狗)放在 canine(犬科)下面,canine 则会放在 mammal(哺乳动物)下面,以此类推。这种语言组织方式依赖的是机器所能读懂的逻辑,并由此汇集了超过 15.5 万个索引单词。李飞飞研究了 WordNet 后,就去找了一直从事 WordNet 研究的克里斯蒂安·菲尔鲍姆(Christiane Fellbaum)。菲尔鲍姆认为,WordNet 可以为每个单词找到一张相关的图片,但主要是为了参考,而不是建计算机视觉数据集。通过那次见面以后,李飞飞设想了一个更大胆的想法——组建一个庞大的数据集,为每个单词都提供更多例子。
李飞飞首先想到的就是雇佣本科生手工寻找图片,然后添加到数据集中。但她很快发现,按照这样的速度大约需要 90 年才能完成。
后来又想到能否让计算机视觉算法从互联网上选取图片,人工来验证图片的准确性?但经过几个月的研究后,发现同样不可行——算法将会随着时间的推移受到限制,只能在整理数据集时才能发现哪些算法具有识别能力。
直到有一次和一名研究生闲聊时,知道了亚马逊有一个众包平台 Mechanical Turk,可以把任务分发给全世界坐在电脑前的人。李飞飞得知后非常兴奋,感觉自己的 ImageNet 一定能做起来。随后接触发现 Mechanical Turk 本身也面临一些缺陷,比如,如果某些参与该平台的人试图欺骗系统该怎么办? 李飞飞带领团队针对 Mechanical Turk 参与者的行为开发了一批统计模型,确保数据集中只包含正确的图片。
最终借助 Mechanical Turk 花了两年半时间才完成这个数据集。其中包含 320 万张经过标记的图片,共分成5,247 种类别,12 个子树,像“哺乳动物”、“汽车”和“家具”等。
ImageNet 迎来辉煌
2017 年是这场挑战赛的最后一年。这八年中,获奖者的算法正确识别率就从 71.8% 提升到 97.3%,已远远超越了人类,并证明了越大的数据集确实可以带来更好的决策。
2009 年,在京都一个计算机视觉会议上,一位名叫 Alex Berg 的参会人员拉住李飞飞,提议大赛中应该额外加入用算法定位图像目标的任务,而不仅仅是识别图像。李飞飞想了想说,你来加入我们吧。Berg、Jia Deng 和李飞飞三人用这些数据集写出了五篇论文。其中第一篇论文成为了今后大赛如何用算法对大规模图片进行分类的比赛标准,也就是 ImageNet 挑战赛规则的前身。
“我们意识到,如果想把这个数据集大众化,我们还需要做更深入的研究。”李飞飞在第一篇论文中写道。
随后,李飞飞奔赴欧洲找到图像识别大赛 PASCAL VOC 的组委会,希望对方能和她合作,并帮助宣传 ImageNet。PASCAL 数据集当时有一定影响力,但只有 20 个类,而 ImageNet 当时有 1000 个类。
随着 ImageNet 接下来连续两年举办,它很快成为衡量分类算法在当时最复杂的图像数据集上的表现的一个基准。
研究人员后来也发现,他们的算法在使用 ImageNet 数据集训练时,表现效果会更好。
“当时很意外地发现用 ImageNet 训练过的模型可以做其他识别任务的启动模型,之后经过微调就能完成任务,”Berg 说,“这不仅是神经网络的突破,也是常规认知的飞跃。”
到了 2012 年的 ImageNet 挑战赛,计算机视觉领域取得了重大成果。那一年,多伦多大学的 Geoffrey Hinton、Ilya Sutskever 和 Alex Krizhevsky 提出了一种深度卷积神经网络结构:AlexNet,成绩比当时的第二名高出 41%。AlexNet 现在依然在研究中被广泛使用。
Hinton 从 20 世纪 80 年代就一直致力于人工神经网络的研究,但他的研究成果一直找不到施展的平台,直到遇到了 ImageNet。Hinton 和他的研究团队之前已经证明演示过他们的神经网络可以在更小的数据集上完成更小的任务,比如笔迹检测等,但他们需要更多的数据将人工神经网络运用到现实世界中。
“很明显,如果在 ImageNet 上做得好,你就能解决图像识别问题。”Sutskever 说, “更令人惊奇的是,人们可以通过深度学习不断改进它, 神经网络之间的层能容纳处理更复杂的模式,是目前人工智能领域最流行的一项技术,深度学习是最正确的决定。”
后来,直到 2014 年,所有竞赛高分者的研究领域都是深度神经网络。
ImageNet 的未来
未来 ImageNet 依然会开放供研究者免费使用。即便 ImageNet 竞赛本身结束,它留下的遗产也会继续影响整个行业。2009 年以来,数十个新开发的数据集已经引入了计算机视觉、神经语言处理和语音识别等子领域。
“ImageNet 改变了人们的思维模式:虽然很多人仍然关心模型,但也很关注数据。”李飞飞说,“数据重新定义了我们对模型的思考方式。”
雷锋网 AI 科技评论编辑
参考:https://qz.com/1034972/the-data-that-changed-the-direction-of-ai-research-and-possibly-the-world/