领英称即将开源他们内部的应用软件 WhereHows,一个企业级的数据挖掘软件。
准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows 的目标是从分布式的多种元数据中进行挖掘。
据领英发布的资料显示,WhereHows 已经挖掘了 50,000 条数据集,14,000 条评论和 35,000,000 个工作机会,多达 15PB 的数据。
在一篇博客中,领英解释了创造 WhereHows 的原因:建造一个数据生态,适配各种程序,专注一项工作。因为领英有各种各样形式的数据,从 Informatic 到 Spark,到 Oracle,再到 Hadoop、Teradate 等。领英称:
领英积累了大量的数据,形式多种多样。对于不同的业务我们有不同的方案,而对于不同的方案我们有不同的驱动。这种专业化的解决方案很棒,因为它能让我们在各方面都用上最好的工具,但是,这也带来了问题。从这些不同的平台、框架、系统中总览所有数据非常困难。这将造成生产力方面的损失,我们的员工需要花多余的时间来寻找合适的数据集,同时也失去了对数据总体的理解。
企业需要将数据联系起来。领英也有专业的数据仓库团队,但问题是,随着系统的家里,数据的空间激增。
很多企业有相同的问题,领英有 Hadoop,多种数据库,Teradata 和各种应用程序。有了 WhereHows,这些数据都可以移动到同一个地方。这个项目完成之后,将是很大一笔财产。
领英的想法是,希望开源社区能够做些贡献,比如解决 bug,增加特性之类的。