热门大数据引擎/组件概要
TeraData
老牌数仓公司,已经上市十几年,数仓领导者地位(from Gartner),目前在向云端发力。主要提供一体机,MPP架构,运行稳定,之前工行用的是TD的系统,价格相对较贵。
Greenplum
2006年第一款产品,基于PostgreSQL,采用无共享MPP架构,主要用于数据分析OLAP。2010年被EMC收购,于2015年开源,拥有完整的生态。Greenplum是全球十大经典和实时数据分析产品中唯一的开源数据库。
Vertica
无共享列存MPP,开创列存DBMS先河,2006年1.0版本,2011被惠普收购,商业版功能强大,被很多以数据为主的公司采购使用。主要用于做数据仓库和OLAP,支持时序数据、机器学习等,也可以适配hadoop,spark等,即便是适配hadoop,速度也显著超越impala,就更不用说hive on tez了。
Hadoop(HDFS+MapReduce+Yarn)
2006年HDFS和MapReduce被纳入Hadoop项目,2008年Cloudera基于Hadoop开始提供服务。Hadoop是一个能够对大量数据进行分布式处理的软件框架,高扩展、高容错、低成本等特点可以认为是为大数据领域开了另一扇门。
Hive
hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。Hive比较适合离线处理,因为它把SQL转MapReduce执行响应速度较慢,也可以通过Hive on Tez通过DAG来减少落盘次数来提速。
HBase
基于Hadoop的列存数据库,特点是对大宽表的支持,支持结

本文概述了热门大数据组件,包括TeraData、Greenplum、Hadoop、Hive、HBase等,深入讲解各组件的特点和应用场景,如TeraData的数仓领导地位,Hadoop的分布式处理能力,以及MongoDb的NoSQL特性。
最低0.47元/天 解锁文章
889

被折叠的 条评论
为什么被折叠?



