谷歌博客今天比较忙,在发布 TensorFlow's 1.0这一重磅更新后,紧接着又发布了一条新闻:启动一场基于YouTube-8M数据库的视频理解挑战赛。挑战赛提供了丰厚的奖金,并终将在今年的CVPR2017大会上进行展示。去年9月,为了促进大规模视频理解技术的创新和发展,我们发布了YouTube-8M数据库,里面包含了数百万的视频,而且这些视频都被分类贴上的数千种标签。
最近,谷歌其它团队相继发布了更多的数据库,比如Open Images和YouTube-BoundingBoxes,与YouTube-8M数据库一起,促进图像和视频理解技术的发展。为了促进这些目标,今天我们正式发布升级版的YouTube-8M,并与Google Cloud Machine Learning、 kaggle.com一起合作组织一场“视频理解挑战赛”和一场以此为主题的 CVPR’17 Workshop。
升级版的YouTube-8M
最新升级版的YouTube-8M包括更加清晰、详细的标签(平均每个视频多两倍的标签)和一系列干净的视频。除了之前发布的视觉特征之外,数据库首次包括了预先计算的音频特征,这是基于最先进的音频建模架构得来的。音视频特征以1秒的时间粒度实时同步,这使得YouTube-8M成为了一个大型多模态的数据库,为联合音视(临时的)建模提供了令人欣喜的机会。新版本的关键数据如下所示。
升级版YouTube-8M数据库的可视化树状图。按照24个垂直行业组织起来,包括前200个最常用的实体和每一个垂直领域最常用的5个实体。
样本视频,来自YouTube-8M数据库里前18个高等级的垂直领域
谷歌云和YouTube-8M视频理解挑战赛
我们很高兴地宣布“谷歌云和YouTube-8M视频理解挑战赛”(Google Cloud & YouTube-8M Video Understanding Challenge)正式启动,这次挑战赛与谷歌云和kaggle.com一起合办。挑战赛参与者需要在使用YouTube-8M作为训练数据库的基础上,建造音视频内容分类模型,然后给大约70万未见过的测试视频贴上标签。这个比赛将由Google Cloud赞助,优胜者们将获得10万美元的奖金(第一名奖金3万美元,后四名分别为2.5万、2万、1.5万和1万美元)。为了让这个比赛有更广泛的参与度,Google Cloud也会提供一些使用优惠,参与者可以自由选择是否使用Google Cloud机器学习来训练模型和进行探索。 开源的TensorFlow代码、执行的一些基线分类模型、训练和评估脚本,如今在Github上都可以获得了(https://github.com/google/youtube-8m/)。基于本地或云端的训练,请看这个说明(https://github.com/google/youtube-8m/blob/master/README.md)和指南(https://www.kaggle.com/c/youtube8m#getting-started-with-google-cloud)
CVPR 2017 Workshop
2017年7月,第30届IEEE计算机视觉与模式识别大会(CVPR 2017)将在夏威夷举行,2017年7月26日,我们将在第一届YouTube-8M Workshop上宣布此次挑战赛的结果,并且也会举办由杰出研究员参加的特邀报告。Workshop上,将会对挑战赛表现优异者成果和一些论文进行展示。我们在此邀请研究人员们提交基于YouTube-8M所做的创新研究、实验和应用论文,也包括与上述挑战赛相关的论文。
我们设计这个数据库的时候,就考虑到规模和多元性,希望从中学到的教训可以推广到很多视频域(YouTube-8M捕捉了超过20中多样的视频域)。我们相信,这次挑战赛可以给研究者提供更大的数据或计算集群,以前所未有的规模去探索和创新,从而促进研究的进步。
Via Googleblog