hadpood的java编写的




nameNode和dataNode的关系和新华字典中 索引和数据的关系一样
将数据切分成很多个块(dataNode),并以HA机制进行存储;

shell
sort:排序(默认整行排);
uniq:去重;
-c:count,计算数量
mapRedcuce
map:对数据进行处理;(和stream中的用法一致)
shuffle:将重复的key的数据进行集合处理;
reduce:根据自己想要的值进行输出;

由map->shuffle->reduce的多个过程中,数据都需要压缩和解压,不然会对网络资源造成压力;(可以降低网络消耗,但要增加处理时间)

yarn管理的是cpu、内存(、硬盘)

1.0中的jobTracker只能单点,不能HA,如果宕机后很麻烦;
2.0中的ResourceManager是管理资源用的(cpu、内存);nodeManager是管理任务的;

非重点内容===============↓↓↓↓↓=================

HDFS中的小文件多时,nodeName内存是会不断扩大的直到被填满,而且多了会很慢;



注:
大数据系统和业务应用系统的交互:
FTP:跨网的时候,不同业务主线
直接落库
kafka直接同步落库或直接业务支持
265

被折叠的 条评论
为什么被折叠?



