1、yarn命令
yarn top //查看集群资源情况
yarn application list //yarn任务情况
2、hdfs命令
hdfs dfs -ls /
hdfs dfs -get /warehouse/tmp /tmp/tmp //从hdfs下载文件夹
hdfs dfs -getmerger /warehouse/tmp /tmp/tmp.csv //从hdfs下载文件
hdfs dfs -put /tmp/1.csv /warehouse/tmp //上传到hdfs
hdfs dfsadmin -report //hdfs存储规模
3、hdfs存储格式
orc\parquet\avro\sequencefile
orc:列式存储,可以对数据进行高效压缩
parquet:列式存储,可以只读取需要的列数据,提高查询性能
sequencefile:数据以键值对形式存储,适合频繁序列化和反序列化
avro:由于其按行存储的特性,可能会导致在只查询部分列时产生较多的 I/O 开销,而 Parquet 和 ORC 则能更高效地处理这类查询。
4、常用服务默认端口
zookeeper 2181
kafka 6667
ranger 6080
ambari 8080
kerberos 88
hive 9083