各发行版本间的对比
- CDH 从6.3版本之后开始收费 对中小企业来讲增加了成本 ,CDH 6.3.X 版本之前的还是免费的 而且图像化一键部署 对小型的集群来讲成本运维成本低
- 云厂商的大数据平台(如dataworks 、 EMR )等 免去了运维和选型成本 直接花钱买就完事 ,但价格也不便宜 有资金预算且没有技术大数据团队的的公司可以考虑
- Apache 开源本 对各个组件的深度要求较高、搭建时各种配置文件多 需要考虑组件间的兼容问题
使用Apache 开源版本搭建大数据集群的几点考虑
- CDH 6.3版本之后就开始收费了 对于6.3之前的版本如果要升级比较困难 如果升级的话本人不太考虑继续使用CDH 毕竟人家的东西一旦停止免费 犹如釜底抽薪,对稳定业务来讲承受不了这种
- 国内云厂商的大数据平台 不得不说做的比较好,各种图形化操作页面 、便于配置 、便于新手上手 而且还有对应的钉钉售后群(类似于工单) ,好归好 唯一的缺点就是就是收费高 对中小公司 一般很难有这方面的预算
笔者所待过公司使用的大数据发行版
- CDH(6.3)版本 居多
- 阿里云厂商的大数据平台(dataworks)也有用
- Apache 版本很少
Apache版本组件选型
- Apache 版本适合大厂 和自我学习使用