大数据技术之HDP基础操作

1、yarn命令

yarn top        //查看集群资源情况

yarn application list        //yarn任务情况

2、hdfs命令

hdfs dfs -ls /        

hdfs dfs -get /warehouse/tmp /tmp/tmp        //从hdfs下载文件夹

hdfs dfs -getmerger /warehouse/tmp /tmp/tmp.csv        //从hdfs下载文件

hdfs dfs -put /tmp/1.csv /warehouse/tmp        //上传到hdfs

hdfs dfsadmin -report        //hdfs存储规模

3、hdfs存储格式

orc\parquet\avro\sequencefile

orc:列式存储,可以对数据进行高效压缩

parquet:列式存储,可以只读取需要的列数据,提高查询性能

sequencefile:数据以键值对形式存储,适合频繁序列化和反序列化

avro:由于其按行存储的特性,可能会导致在只查询部分列时产生较多的 I/O 开销,而 Parquet 和 ORC 则能更高效地处理这类查询。

4、常用服务默认端口

zookeeper 2181

kafka 6667

ranger 6080

ambari 8080

kerberos 88

hive 9083

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值