开源SQL引擎
-
Impala:由Cloudera开发,是一个开源的MPP SQL引擎,作为Hive的高性能替代品。它使用HDFS和HBase,并利用了Hive元数据,但绕开了使用MapReduce运行查询,提供了高性能、低延迟的查询能力。
-
Presto:由Facebook发起,是一个分布式SQL查询引擎,支持标准的ANSI SQL,包括复杂查询、聚合、连接和窗口函数。它可以接入多种数据源,并支持跨数据源的级联查询,适用于高速、实时的数据分析。
-
HAWQ:是一个Hadoop上的SQL引擎,以Greenplum Database为代码基础发展而来,采用MPP架构,改进了针对Hadoop的基于成本的查询优化器,全面兼容SQL标准,适用于构建Hadoop分析型数据仓库应用。
-
Drill:是一个开源的分布式SQL查询引擎,支持非结构化和半结构化数据的查询,提供了对多种数据源的访问能力,包括Hadoop、NoSQL数据库和云存储等。
-
Phoenix:是一个运行在HBase上的SQL框架,绕过了MapReduce,提供了低延迟的查询能力,适用于需要快速查询HBase数据的场景。
国产分布式数据库和数据仓库解决方案
-
TiDB:由PingCAP公司开发,是一款开源分布式NewSQL数据库,结合了传统关系型数据库和NoSQL的优点,支持高并发和大规模数据存储,兼容MySQL协议,支持实时分析。
-
openGauss:由华为公司开发,是一款开源关系型数据库,基于PostgreSQL开发,具有高性能、高可靠性和高可扩展性,适用于企业级应用和大规模数据处理。
-
GaussDB(DWS):是华为推出的云原生分布式数据库,具备分析及混合负载能力,支持GB~PB级数据分析能力、多模分析和实时处理能力,适用于数据仓库、数据集市等多种场景。
-
OceanBase:由阿里巴巴集团自主研发的分布式关系型数据库,支持高并发和大规模数据存储,具有高可用性和高性能,适用于电商平台等需要支持高并发的场景。
-
达梦数据库:由达梦数据库有限公司开发,是一款国产的关系型数据库,具有高性能和高可用性,适用于各种企业级应用,包括金融、电信、物流等领域。
商业化选择
-
Oracle Big Data SQL:提供了对Hadoop数据的SQL访问能力,结合了Oracle数据库的高性能和可靠性,适用于企业级大数据分析。
-
IBM Big SQL:IBM提供的大数据SQL解决方案,支持对Hadoop数据的高性能查询和分析,具有良好的扩展性和企业级特性。
典型 HTAP 数据库举例
数据库公司/社区核心设计适用场景
TiDB PingCAP 分布式架构,通过 TiKV(行存)处理事务,TiFlash(列存)加速分析,实时同步数据。 金融、电商实时分析,大规模混合负载。
Oracle Exadata Oracle 结合 OLTP 数据库与 Exadata 存储服务器,智能扫描技术优化混合负载。 企业级高并发事务与实时分析。
SAP HANA SAP 基于内存计算,行列混合存储引擎,支持事务和复杂分析并行处理。 实时业务分析(如供应链、财务)。
ClickHouse 开源 原生列存,支持事务轻量化处理(如 Kafka 数据摄入)与高性能分析。 实时日志分析、时序数据处理。
Apache Doris 开源 MPP 架构,支持高并发写入与实时分析,内置行列混合存储。 广告分析、用户行为分析。
参考1:
Hive从入门到放弃——Hive常用连接工具推荐(三)_hive客户端工具排行-优快云博客
参考2: