12 月 9 日,阿里云宣布数据库产品 HybridDB 正式商业化。
HybridDB(ApsaraDB HybridDB)是一款在线 MPP 大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发,并由阿里云数据库团队在云计算架构下深度扩展。
该服务支持了 OSS 存储、JSON 数据类型、HyperLogLog 预估分析等功能特性。通过符合 SQL2008 标准查询语法及 OLAP 分析聚合函数,提供灵活的混合分析能力。提供在线扩容、备份、性能监测等服务。
阿里云数据库产品研究员褚霸介绍,随着各行各业信息技术的发展催生了以数据分析场景为主要业务的企业。特别是物联网和广告分析领域的企业,对云上复杂场景数据分析有强需求。“这个产品可以简化大量工作,如数据库管理员、开发者以及数据分析师可以专注于如何通过 SQL 挖掘数据价值,无需再自行维护复杂的大规模并行数据集群。”
HybridDB 是此款产品的名字,也体现了“混合”的特点。HybridDB 兼容数据类型多达 23 种,比市面上云计算厂商的同类产品多一倍。同时,它支持横向扩展,当用户数据量变大,内存及 CPU 计算能力需求增大时,随时可以添加节点,以线性扩展分析性能,提高计算能力。
7 月公测以来的数据显示,JSON 和 GIS 类型的数据量高达 TB 级别时,查询也可以在 1 秒内完成。此外,广告分析领域的公司在做互联网海量数据的 PV、UV 预估分析时,统计性能提升 20-100 倍。
在 MySQL 和 ProstgreSQL 之外,数据库用户为什么还需要全新的产品?褚霸表示,HybridDB 的混合数据类型及混合存储(行存、列存、OSS 外部表)能力,可以与阿里云现有的 RDS、NoSQL 数据库方案实现数据融合分析。同时补全了 EMR(Hadoop)分析场景中实时性不足的问题,为用户提供基于开源 OLTP、OLAP、BigData 生态的一站式解决方案。
Greenplum 诞生于 2006 年,是一个分布式大规模并行处理数据库,常用于大数据的存储引擎、计算引擎和分析引擎。它和 HybridDB 将形成云上云下业务场景的互补,软件开发过程中,云上 HybridDB 环境与云下 Greenplum 商业版本、Greenplum Database 开源版本环境可以采用同一套代码,节省开发及维护成本。
阿里云数据库团队的愿景是打造一站式在线分析引擎。从数据的传输、存储、计算到管理,让客户的数据需求能够在同一个产品环境体系内实现,进一步降低数据处理的整体成本。未来,阿里云将围绕 HybridDB 做数据库生态的努力。一方面,加速与阿里云数据类产品实现互通,让用户可以通过 SQL 快速分析从不同渠道存储下来的数据。另一方面,引入合作伙伴认证机制,邀请更多 ISV 开发商及 BI/ETL 厂商支持,共同为用户创造价值。
- 实时分析
支持 SQL 语法进行分布式 GIS 地理信息数据类型实时分析,协助物联网、互联网实现 LBS 位置服务统计
支持 SQL 语法进行分布式 JSON、XML、模糊字符串等数据实时分析,助金融、政企行业实现报文数据处理及模糊文本统计
- 稳定可靠
支持分布式 ACID 数据一致性,实现跨节点事务一致,所有数据双节点同步冗余
分布式部署,计算单元、服务器、机柜三重防护,提高重要数据基础设施保障
- 简单易用
丰富的 OLAP SQL 语法及函数支持,众多 Oracle 函数支持,业界流行的 BI 软件可直接联机使用
可与云数据库 RDS (PostgreSQL/PPAS)实现数据通讯,实现 OLTP OLAP (HTAP)混合事务分析解决方案
- 性能卓越
支持行列混合存储,列存性能在 OLAP 分析时相比行存储可达 100 倍性能提升
支持高性能 OSS 并行数据导入,避免单通道导入的性能瓶颈
- 灵活扩展
按需进行计算单元,CPU、内存、存储空间的等比扩展,OLAP 性能平滑上升致数百 TB
支持透明的 OSS 数据操作,非在线分析的冷数据可灵活转存到 OSS 对象存储,数据存储容量无限扩展