大数据学习

Hadoop是开源项目,提供分布式数据存储(HDFS),分布式数据计算(MapReduce,Spark,Flink),分布式资源调度(Yarn)

个人企业可以借助hadoop完成海量数据存储和计算

HDFS:

Namenode的元数据:

edits是流水账文件,记录了的每一次hdfs操作,定时定量的讲大量edits整合为一个fsimage文件

写入操作:

读取操作:

Mapreduce:

map:分散 reduce:汇总

Yarn:资源调度

ResourceManager:整个集群的资源调度者

NodeManager:单个服务器的资源调度者

yarn容器:

yarn架构:

Hive

将sql翻译成MapReduce

结构:

启动Hive

1、直接在Linux系统中启动Hive:/bin/hive

2、间接:bin/service --hiveserver2 启动服务提供thrift接口给其他客户端链接:DataGrip,DBeaver

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值