游客

谷歌BigQuery增加了新的公开数据集

游客 2017-01-10 15:08:45    201120 次浏览

英文原文:Google BigQuery Adds New Public Datasets

Stack Overflow 近日宣布,通过谷歌 BigQuery 提供它的数据集。开发人员可以使用平常的 SQL 语句查询完整的 Stack Overflow 数据集,包括帖子、投票、标签和徽章。使用 BigQuery 的 REST API,开发人员可以根据需要使用他们自选的工具导出数据。BigQuery 上的数据集支持联合查询,开发人员使用普通的 SQL 就可以跨领域获得有用的见解。

除了 Stack Overflow 的数据集以外,BigQuery 还支持对 Hacker News数据集GitHub 数据集的访问,这两个数据集连同 Stack Overflow 数据集可以提供有用的见解。BigQuery 近日还围绕纽约市的数据增加了三个数据集,分别是关于机动车碰撞城市自行车旅行及 311 非紧急市政服务电话请求。BigQuery 之前已经有一个数据集,其中包含 2009 年到 2015 年纽约市的每一次出租车和豪华轿车旅行,上述三个数据集对此是一个补充。

当前,BigQuery 还有其他可用的数据集,其中包括气象信息部分数据远至 1763 年)、医疗数据、350 万数字化图书、一个包含元数据并标注了 900 万 URL 的图像数据集、美国国税局及美国职棒大联盟的数据。还有一个数据集包含了世界各地的新闻和事件,每 15 分钟更新一次。该数据集是由 GDELT 项目提供的。此外,BigQuery 还包含 Personal Genome 项目提供的 Genomics 数据集Wikipedia 页面访问量数据以及将近 20 亿条 Reddit 评论

感兴趣的读者可以通过 BigQuery 控制台获取 Stack Overflow 数据集,也可以通过 reddit 社区参与进一步的讨论。

内容加载中