游客

谷歌开放大规模音频数据集AudioSet,助力AI音频算法研究

游客 2017-03-12 21:26:55    201101 次浏览

谷歌开放大规模音频数据集AudioSet,助力AI音频算法研究

在 Google Cloud Next 云技术大会之前,谷歌通过开发者博客公布了一个可以媲美图像识别领域 ImageNet 的大型音频数据库 AudioSet。据称,该数据库包含了 632 个音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(来自 YouTube 视频),覆盖范围包括人声、动物声、各种乐器与音乐流派,以及日常生活环境的声音等。总体量为:2100 万标注视频、5800 个小时的音频,以及 527 种类型的标注声音。

论文:https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/45857.pdf 

详情:https://research.google.com/audioset/ 

内容加载中