8月14日,创新工场、搜狗和今日头条联合宣布携手发起“AI Challenger全球AI挑战赛”,三方联合旨在打造中国最大的科研数据集与世界级AI竞赛平台,推动中国人工智能领域科研创新。
据悉,大赛第一年启动将开放超过1000万条中英文翻译数据、70万个人体动作分析标注数据、30万张图片场景标注和语义描述数据,是国内迄今公开的规模最大的科研数据集。基于此次开放的数据集,AI Challenger全球挑战赛面向全球AI科研人才广发英雄帖,致力于促进人工智能行业向更为开放、融合以及国际化的方向发展。
开放中国最大 AI科研数据集
“数据、算法、计算能力是人工智能的三大基石,其中,数据更是人工智能科研的最宝贵资产。没有足够好的数据,就无法取得世界顶级的科研成果。”此次创新工场、搜狗和今日头条在三方共同发布的“AI Challenger 全球AI挑战赛” 的社会责任宣言中如此表述数据的重要性。
“在30多年前自己作为AI科研人员的时代,能接触到真实世界的海量数据是个遥不可及的梦想。如今,伴随互联网和移动互联网而来的大数据、高效的计算机运算能力等条件都齐备的环境下,有了AI Challenger这样的开放数据集和竞赛平台对于AI科研与开发人员是个难得的契机。”创新工场董事长兼CEO、创新工场人工智能工程院院长李开复这样表示,并讲述了自己当年的“幸运和遗憾”。李开复的语音识别研究成果曾被《商业周刊》评选为1988年最重要的科学发明,他也因此拿到了卡内基·梅隆大学的计算机博士学位,并破格留校成为一名26岁的助理教授。不过,李开复感到遗憾的是,“虽然我找到了方向和基本方法,但以当时的数据量级和计算水平,语音AI研究很难有商业化机会。”
今日头条顾问、技术战略研究院院长张宏江也谈到,上世纪90年代初,谁都不好意思说自己做AI,最重要原因之一就是数据不够而导致的成果不尽如人意。随着互联网和移动互联网的普及,数据的数量和质量的增长,才使得现在AI在语音识别、图像识别等方面都取得成功。
“搜狗为这次比赛提供的是大量经过标注的数据,会对得起参赛的各位选手。” 搜狗CEO王小川这样表示,并介绍了搜狗数据与科研相结合的成功实践项目。9年前,搜狗就与清华大学共建了联合实验室,还专门拉了光纤到清华大学以便同步有关的搜索应用等数据,希望找到产学研结合发展的道路,探索新的算法。清华大学应用真实海量数据后,相关研究成果的质和量都有了飞跃式的提高。王小川说:“我们希望能够利用搜狗的优质数据和应用场景助力AI Challenger全球AI挑战赛,让全球科研工作者取得更大的成就与突破,一起推动人工智能行业更快、更好地发展。”
此次竞赛数据来源于搜狗和今日头条。搜狗搜索、输入法、机器同传等产品,在产业实践中积累了大量语音、文本、图像、视频等数据集,其中搜狗的语音输入日频次已达2.6亿次。今日头条同样是最早将人工智能技术应用于产品的公司之一,在产业实践中积累了大量文本、图像、视频等数据集。
世界级竞赛 推动中国AI发展
此次AI Challenger的口号是“科研大数据,智慧竞技场”,数据集涵盖多个领域,包括最大规模的人体骨骼关键点数据集(用于无人驾驶、安防、体感游戏等场景)、最大规模的图像中文描述数据集(用于图像和视频内容理解、图像标题自动生成等各类应用)、最大规模的口语领域英中翻译数据集(用于同声传译等自然语言处理的各类应用)等。
创新工场人工智能研究院副院长王咏刚介绍说,AI Challenger提供的数据集和全球挑战赛具备三个重要的特点,一是紧跟前沿科研的需要;二是人体骨骼关键点、图像检测、机器翻译等数据集,都是现在国内甚至世界上规模最大的;三是要打造一个世界级的开放平台,其中人体骨骼关键点检测跟语言无关的,有利于吸引非中文选手参加,即便中英文翻译等语言项目也不会有很高的语言壁垒,希望可以将此项赛事变成世界级竞赛。
据介绍,2017年竞赛将区分为五个竞赛任务供参赛者组队报名,设有共计200万元人民币的奖金池。自9月4日起开放参赛队伍线上进行数据集下载,三个月的竞赛将持续到12月。参赛的优秀选手还可获得进入三家主办方工作、实习或获得投资的机会,并有机会在国际顶级学术会议上分享获奖心得,得到上海科技大学教授马毅、旷视科技首席科学家孙剑、前Google研究院高级管理科学家林德康等十余位人工智能领域顶级专家评委的指导。未来,“AI Challenger·全球AI挑战赛”将持续投入,建设和发布更大规模的AI前沿领域高质量数据集,涵盖自动驾驶、智慧医疗、智慧金融、机器人等行业应用中的核心AI需求方面。
今日头条顾问、技术战略研究院院长张宏江表示:“举办AI Challenger挑战赛的初衷,就是希望通过开放数据,吸引更多优秀人才参与到算法模型的开发、设计中来。比赛结束后,所有数据集会向社会全面开放,我们希望尽一些微薄的力量,为学术界、学术人才提供帮助,加强产学研结合,共同推动中国人工智能行业的发展。”
今年6月,举办了八届的ImageNet挑战赛由其创始人之一李飞飞博士宣布退出历史舞台。国际上,ImageNet挑战赛曾是每年企业和研究者都极为看重的活动。另一机器学习竞赛平台Kaggle着眼于真实数据和真实问题的解决方案,同样吸引了全球将近百万数据科学家和研究者进行挑战和探索其多元化的公开数据集。创新工场、搜狗和今日头条三方计划在未来三年间投入数千万元规模的资金,不断完善平台的建设、扩大数据集的规模,希望在三年内打造出来自中国的世界级AI开放数据和竞赛平台,让AI Challenger成为推进全球人工智能研究和产业前进的新引擎。
李开复表示希望该赛事可以成为推进中国AI人才脱颖而出的重要催化剂,“当三五年后我们回顾时,当我们看到中美AI人才队伍没有落差时,也许我们会想到AI Challenger在这个重大过程中扮演了一个小小角色。”
王小川认为,中国公司在AI领域发展很快,现在需要输出资金和数据帮助国内高校等科研机构和创业群体获得能力提升,“希望中国的企业成为世界的AI贡献者,我们的选手也成为世界性人才。”