大数据学习之组件安装

大数据的诞生之初是为了存储海量数据,在存储了海量数据后,就让海量数据产生价值,于是需要海量数据的计算,海量的计算有很多job,需要海量的资源,且job之间有优先级需要调度,于是需要集中的资源调度。大数据的基石 Hadoop就大概可以分为这三块。

存储 -> 计算 -> 调度。

存储: HDFS为基石,它只是个文件系统,只负责存储,但是没有组织,导致外部查找不方便。于是hive诞生了,hive的数据还是存储在hdfs上,但是它提供了组织架构,类似关系型表的组织。hive的查询引擎是MR,不够快,于是有了其他的即席查询(impala,kylin,druid等)。但是impala使用的元数据还是hive。所有存储这块,HDFS和hive是基石。

计算:  分为实时(流式)和离线(批式),离线有: MR, spark。 实时有: storm,flink。当然flink和spark是都可以做实时和离线,只是擅长的点不一样。 发展大体可以粗略概括为

        离线:  MR -> spark   实时:  storm -> flink

        流批一体的框架: spark和flink。

调度: 国内就是Yarn的天下。

学习路线1:  Hadoop -> Hive -> zookeeper -> kafka

学习路线2:  Hadoop -> Hive -> Impala -> hue -> zookeeper -> Hbase -> kafka

Hadoop安装文档:Hadoop的安装部署(学习使用)_zhang5324496的博客-优快云博客

Hive 安装文档:Hive安装部署_zhang5324496的博客-优快云博客

Zookeeper安装文档:Zookeeper集群搭建_zhang5324496的博客-优快云博客

Hbase 安装文档: HBase的安装部署_zhang5324496的博客-优快云博客

未完,待后续补充 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值