谷歌開放大規模音頻數據集AudioSet，助力AI音頻算法研究

谷歌开放大规模音频数据集AudioSet，助力AI音频算法研究

在 Google Cloud Next 云技术大会之前，谷歌通过开发者博客公布了一个可以媲美图像识别领域 ImageNet 的大型音频数据库 AudioSet。据称，该数据库包含了 632 个音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段（来自 YouTube 视频），覆盖范围包括人声、动物声、各种乐器与音乐流派，以及日常生活环境的声音等。总体量为：2100 万标注视频、5800 个小时的音频，以及 527 种类型的标注声音。

论文：https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45857.pdf

详情：https://research.google.com/audioset/

谷歌开放大规模音频数据集AudioSet，助力AI音频算法研究

相关推荐