在 7 月 17 日落幕的 ImageNet 大规模视觉识别挑战赛(ILSVRC-2017)上,360 人工智能团队在两项任务中夺得冠军,并且刷新了此前谷歌、微软、牛津大学等机构保持数年的世界纪录。
有人工智能“世界杯”之称的 ImageNet 大规模视觉识别挑战赛被誉为计算机视觉乃至整个人工智能发展史上的里程碑式的赛事。本届比赛共吸引了来自中美英等 7 个国家的 25 支顶尖人工智能团队参赛。赛事共包括物体定位(识别)、物体检测、视频物体检测三大类任务。
最终,由 360 人工智能研究院与新加坡国立大学(NUS)组成的团队在“物体定位”任务的两个场景竞赛中均获得第一,同时在所有任务和场景中均取得了全球前三的骄人战绩。
360 人工智能研究院院长颜水成教授表示:“很高兴能够在 ImageNet 上取得佳绩,这也反映了 360 人工智能技术,特别是在视觉识别方面的领先实力。360 非常重视人工智能在垂直领域的发展,并将人工智能技术积极应用到各类产品中。当下人工智能的发展不能脱离具体业务,需要在垂直领域去解决具体的问题,能落地的人工智能才是真正的人工智能。”
图1:使用训练数据进行分类 定位的模型训练
物体定位(识别)、物体检测、视频物体检测都是计算机视觉的核心领域,对于人工智能的发展意义重大,有广阔的应用前景,比如人脸识别、无人驾驶、智能机器人等。
在本届赛事中,“物体定位”任务共包括两大场景,即“使用训练数据进行训练”,与“使用额外训练数据进行训练”。
在上述任务中,360 与 NUS 团队合作提出的“DPN 双通道网络 基本聚合”深度学习模型均取得了最低的定位错误率,分别为 0.062263 和 0.061941。
值得一提的是,谷歌、微软、牛津大学等团队此前一直在此项任务中保持世界领先地位。此次,该项纪录最终被 360 与 NUS 团队成功改写。
图2:使用额外训练数据进行分类 定位模型的训练
计算机视觉识别是人工智能领域的经典命题,长久以来一直受到学术界和产业界的广泛关注。ImageNet 不但是计算机视觉发展的重要推动者,也是深度学习热潮的关键驱动力之一。
从 2010 年以来,ImageNet 每年都会举办一次全球性竞赛,即 ImageNet 大规模视觉识别挑战赛。来自全球各国的顶级人工智能团队会在赛事中相互较量,比拼对物体和场景进行分类和检测的能力。这些团队既包括谷歌、微软、Facebook 等大型互联网公司,也包括伯克利、牛津大学等世界顶级名校。整个赛事也成为了各团队、巨头展示实力的竞技场。
任何成绩的取得都不是一蹴而就的,而是来自于长期的积累。颜水成表示,一直以来 ,360 人工智能研究院在计算机视觉领域持续投入研发。在长时间的研究工作中,打造了一支实力强大的人工智能团队,对于计算机视觉领域有深刻的理解。
安全与智能是 360 当前两大重点。
360 人工智能研究院立足于世界领先的深度学习研发能力,发力视觉、语音、语义和大数据四个方向,向 360 相关业务部门提供技术输出,并完成人工智能相关方向的原始技术积累和前沿探索。
目前,研究院的人工智能技术已经广泛应用于 360 的全系列产品中,包括直播、智能硬件、搜索和信息流等业务。未来,研究院将会推动 360 在人工智能方面的技术实现突破性进展。其中,视觉技术将进一步提升,优化识别物体、行为等,并拓展到 SLAM 领域;语音分析将增强合成真实感,提高识别准确度,逐步建立基于 NLP 语义的对话系统;大数据技术的提高将带动广告、精准推荐等。