hadpood的java编写的
nameNode和dataNode的关系和新华字典中 索引和数据的关系一样
将数据切分成很多个块(dataNode),并以HA机制进行存储;
shell
sort:排序(默认整行排);
uniq:去重;
-c:count,计算数量
mapRedcuce
map:对数据进行处理;(和stream中的用法一致)
shuffle:将重复的key的数据进行集合处理;
reduce:根据自己想要的值进行输出;
由map->shuffle->reduce的多个过程中,数据都需要压缩和解压,不然会对网络资源造成压力;(可以降低网络消耗,但要增加处理时间)
yarn管理的是cpu、内存(、硬盘)
1.0中的jobTracker只能单点,不能HA,如果宕机后很麻烦;
2.0中的ResourceManager是管理资源用的(cpu、内存);nodeManager是管理任务的;
非重点内容===============↓↓↓↓↓=================
HDFS中的小文件多时,nodeName内存是会不断扩大的直到被填满,而且多了会很慢;
注:
大数据系统和业务应用系统的交互:
FTP:跨网的时候,不同业务主线
直接落库
kafka直接同步落库或直接业务支持