hadoop学习-1

hadpood的java编写的

 

 nameNode和dataNode的关系和新华字典中 索引和数据的关系一样

将数据切分成很多个块(dataNode),并以HA机制进行存储;

shell

        sort:排序(默认整行排);

        uniq:去重;

        -c:count,计算数量

mapRedcuce

        map:对数据进行处理;(和stream中的用法一致)

        shuffle:将重复的key的数据进行集合处理;

        reduce:根据自己想要的值进行输出;

 由map->shuffle->reduce的多个过程中,数据都需要压缩和解压,不然会对网络资源造成压力;(可以降低网络消耗,但要增加处理时间)

yarn管理的是cpu、内存(、硬盘)

 1.0中的jobTracker只能单点,不能HA,如果宕机后很麻烦;

2.0中的ResourceManager是管理资源用的(cpu、内存);nodeManager是管理任务的;

 非重点内容===============↓↓↓↓↓=================

 HDFS中的小文件多时,nodeName内存是会不断扩大的直到被填满,而且多了会很慢;

 

 

 

注:

大数据系统和业务应用系统的交互:

        FTP:跨网的时候,不同业务主线

        直接落库

        kafka直接同步落库或直接业务支持

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值