对于谷歌来说,识别图片中的对象已不再是挑战。它的下一个挑战就是识别和搜索视频中的内容,因为视频的数据量比图片更大,更难概括和识别。
不单是谷歌,社交网络 Facebook、阅后即焚应用 Snap 和微博网站 Twitter 也都在努力识别视频内容。
但是,很久以来,谷歌旗下的视频网站 YouTube 就一直被称作是全球第二大的搜索引擎,仅次于谷歌搜索引擎。虽然文字搜索请求可以帮助谷歌返回 YouTube 视频搜索结果,但是真正的视频内容搜索技术尚未得到应用。
数月前,谷歌给科学研究领域献上了一份大礼:YouTube-8M 视频数据集。在今天,谷歌又更新了这个数据集。这也许并非巧合。开放数据,特别是斯坦福 ImageNet 数据库和微软 COCO 数据库,推动着图片识别搜索的研究。人工智能系统需要数据才能变得更为智能。这些组织已在致力于提供这样的原始数据。
当然,谷歌并非只想着打造先进技术,造福全人类。它也希望借此改善自己的产品,就像它在 Gmail 邮箱系统中引入 Smart Replies 智能回复功能以及在 Google Translate 翻译服务中添加“实时视觉翻译”功能一样。谷歌当然希望 YouTube 能够成为人们搜索视频的最佳去处。
“如果它能够识别奶牛跳过月球或猫儿跳过篱笆的视频,那就太酷了。”谷歌高级研究员杰夫·迪恩(Jeff Dean)在谷歌首次举办的 TensorFlow Dev Summit 峰会上说。
迪恩称,这意味着谷歌不再需要依靠描述和评论等元数据来进行搜索了。这种视频搜索技术还可以改善视频推荐服务。
现在,我们尚不清楚 YouTube 何时会推出这种视频搜索功能。
迪恩称,一般来说,“视频搜索可能要落后图片搜索好几年。”