浅评数据仓库三大王者

本文对比了TeraData、Greenplum及Hadoop+Hive三种数据仓库解决方案的特点。TeraData以其成熟的生态系统和服务于大型金融机构著称;Greenplum作为新秀,基于开源PostgreSQL并支持MapReduce;而Hadoop+Hive则因开源免费和灵活的硬件选择受到互联网公司的青睐。

TeraData, 当仁不让的霸主
TeraData已经在这个领域纵横好多年了, 你从Tera这个词就能看出这点. 如果是新兵的话, 名字肯定不会是Tera, 这年头还叫Tera, 那也太没有发展的眼光了. 在国内, 多为不差钱的公司采用, 比如银行什么的.
数据仓库流图, OLTP-->ETL-->TeraData-->BI
优点: (1)生态环境已经营造的很好了, 无论ETL工具还是BI工具都很好地支持. (2) 开箱即用, 甚至将硬件也打包在一起, 省事. (3)成功案例比较多
缺点: (2)巨贵Greenplum, 新锐,
2010年被EMC收购, 算是嫁入豪门了(据传Oracle近来有意收购要EMC了). 采用Share nothing的架构, 支持Map-reduce, 后台数据库基于开源的PostgreSQL数据库.
数据仓库流图, OLTP-->ETL(或简单的EL)-->Greenplum-->BI
优点:(1)因为采用RDBMS数据库, 容易集成现有的ETL和BI工具. (2) 能够运行在所有的X86/X64硬件上, 所以硬件的选择自由度比较大. (3)线性扩展.
缺点:(1)案例还不算多. (2)具有丰富运维经验的工程师还不多Hadoop+Hive, 新兵蛋子, 极具王者风范
互联网企业用的比较多, Yahoo/Facebook, 国内阿里系的公司也在用
优点: (1)开源搭配, 免费. (2)互联网巨人不断贡献和完善代码, 发展前景不错. (3)和greenplum一样, 硬件的选择自由度大, (4)线性扩展
缺点: (1)需要较高的技术储备, 学习曲线比较陡, 这也是为什么仅仅在互联网公司用的比较多. (2)仍在不断完善中, 换句话讲, 现在还不成熟.
考虑到简化和BI等的集成, 我认为下面是1个比较靠谱的数据仓库流图:
OLTP(或 结构化文档)-->定制hive的inputFormat/outputFormat适配器-->Hadoop+Hive-->编写 hive的自定义函数UDF (只将必需的数据传到数据库)-->RDBMS(比如Oracle等)-->BI

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值