在 Google Cloud Next 云技术大会之前,谷歌通过开发者博客公布了一个可以媲美图像识别领域 ImageNet 的大型音频数据库 AudioSet。据称,该数据库包含了 632 个音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(来自 YouTube 视频),覆盖范围包括人声、动物声、各种乐器与音乐流派,以及日常生活环境的声音等。总体量为:2100 万标注视频、5800 个小时的音频,以及 527 种类型的标注声音。
论文:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45857.pdf