Hadoop命令详解与使用指南-优快云博客

本文详细介绍了Hadoop的相关命令，包括查看文件内容、权限管理（chgrp、chmod、chown）、文件操作（复制、删除、移动）、目录管理、文件属性查看（du、dus、stat）以及HDFS维护操作（expunge、fsck）。此外，还涵盖了安全模式、Balancer等高级功能和YARN命令的使用。

查看文件内容

hdfs dfs -cat /ops/1.txt

chgrp

使用方法： hadoop fs -chgrp [-R] GROUP URI
改变文件所属的组。使用-R 将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。

chmod

使用方法： hadoop fs -chmod [-R] <MODE[,MODE]… | OCTALMODE> URI [URI …]

chown

使用方法： hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]
改变文件的拥有者。使用-R 将使改变在目录结构下递归进行。命令的使用者必须是超级用户。

复制文件

hdfs dfs -copyFromLocal 源路径路径

copyToLocal

使用方法： hadoop fs -copyToLocal [-ignorecrc] [-crc] URI
除了限定目标路径是一个本地文件外，和 get 命令类似。

cp

使用方法： hadoop fs -cp URI [URI …]
将文件从源路径复制到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。
示例：
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2
hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir

du

使用方法： hadoop fs -du URI [URI …]
显示目录中所有文件的大小，或者当只指定一个文件时，显示此文件的大小。
示例：
hadoop fs -du /user/hadoop/dir1 /user/hadoop/file1 hdfs://host:port/user/hadoop/dir1

dus

使用方法： hadoop fs -dus
显示文件的大小。

expunge

使用方法： hadoop fs -expunge
清空回收站。

文件被复制到本地系统中

hdfs dfs -get /ops/1.txt /data/work

getmerge

使用方法： hadoop fs -getmerge [addnl]
接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件连接成本地目标文件。 addnl 是可选的，用于指定在每个文件结尾添加一个换行符。

查看目录下的文件列表

hdfs dfs -ls /user

lsr

使用方法： hadoop fs -lsr
ls 命令的递归版本。类似于 Unix 中的 ls -R。

建立目录

hdfs dfs -mkdir -p /ops/20161201

movefromLocal

使用方法： dfs -moveFromLocal
输出一个”not implemented“信息

mv

使用方法： hadoop fs -mv URI [URI …]

hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2
hadoop fs -mv hdfs://host:port/file1 hdfs://host:port/file2 hdfs://host:port/file3
hdfs://host:port/dir1

上传文件

hdfs dfs -put 1.txt /ops

删除文件或目录

hdfs dfs -rm /ops/1.txt
hdfs dfs -rmr /ops

rmr

使用方法： hadoop fs -rmr URI [URI …]
delete 的递归版本。
示例：
-hadoop fs -rmr /user/hadoop/dir
-hadoop fs -rmr hdfs://host:port/user/hadoop/dir

setrep

使用方法： hadoop fs -setrep [-R]
改变一个文件的副本系数。 -R 选项用于递归改变目录下所有文件的副本系数。
示例：
hadoop fs -setrep -w 3 -R /user/hadoop/dir1

stat

使用方法： hadoop fs -stat URI [URI …]
返回指定路径的统计信息。
示例：

hadoop fs -stat path

tail

使用方法： hadoop fs -tail [-f] URI
将文件尾部 1K 字节的内容输出到 stdout。支持-f 选项，行为和 Unix 中一致
示例：
- hadoop fs -tail pathname

test

使用方法： hadoop fs -test -[ezd] URI
选项：
-e 检查文件是否存在。如果存在则返回 0。
-z 检查文件是否是 0 字节。如果是则返回 0。
-d 如果路径是个目录，则返回 1，否则返回 0。
示例：

hadoop fs -test -e filename

text

使用方法： hadoop fs -text
将源文件输出为文本格式。允许的格式是 zip 和 TextRecordInputStream。

touchz

使用方法： hadoop fs -touchz URI [URI …]
创建一个 0 字节的空文件。
示例：

hadoop -touchz pathname

fsck

查看目录的健康状态
hdfs fsck /
check 目录下的文件
hdfs fsck /ops -files
查看某个目录 block 以及监控情况
hdfs fsck /ops -files -blocks -locations
查看目录损坏的块
hdfs fsck / -list-corruptfileblocks

查看 HDFS 基本统计

查看 HDFS 的基本统计信息
hdfs dfsadmin -report

主从切换

查看 namenode 主从状态
hdfs haadmin -getServiceState nn1
active 从 nn1 切换到 nn2
hdfs haadmin -failover nn1 nn2

安全模式

两个 NameNode 进入安全模式
hdfs dfsadmin -safemode enter
单个 NameNode 进入安全模式
hdfs dfsadmin -fs hdfs://hadoop3:8020 -safemode enter
两个 NameNode 退出安全模式
hdfs dfsadmin -safemode leave
单个 NameNode 退出安全模式
hdfs dfsadmin -fs hdfs://hadoop3:8020 -safemode leave
查看状态
hdfs dfsadmin -safemode get

Balancer

设置 balance 时的带宽 50M
hdfs dfsadmin -setBalancerBandwidth 52428800 启动数据平衡，threshold = 5% (各个节点与集群总的存储使用率相差不超过 5%(默认是 10%) ./sbin/start-balancer.sh -threshold 10

如何停止数据平衡：
./sbin/stop-balancer.sh

yarn命令

yarn application [options]

-list
列出 RM 中的应用程序。支持使用-appTypes 来根据应用程序类型过滤应用程序，并支持使用-appStates 来根据应用程序状态过滤应用程序。
-kill
终止应用程序。
-status
打印应用程序的状态
-appStates
应用程序状态列表来过滤应用程序。有效的应用程序状态可以是以下之一：
ALL，NEW，NEW_SAVING，SUBMITTED，ACCEPTED，RUNNING，FINISHED，FAILED，KILLED
-appTypes
#与-list 一起使用，可以根据输入的逗号分隔的应用程序类型列表来过滤应用程序
.classpath
使用语法：yarn classpath #打印需要得到 Hadoop 的 jar 和所需要的 lib 包路径
container
使用语法：yarn container [options] #打印 container(s)的报告
logs
使用语法：yarn logs -applicationId [options] #转存 container 的日志。

-applicationId #指定应用程序 ID，应用程序的 ID 可以在 yarn.resourcemanager.webapp.address 配置的路径查看（即：ID）
-appOwner #应用的所有者（如果没有指定就是当前用户）应用程序的 ID 可以在 yarn.resourcemanager.webapp.address 配置的路径查看（即：User）
-containerId #Container Id -help #帮助
-nodeAddress #节点地址的格式： nodename:port （端口是配置文件中:yarn.nodemanager.webapp.address 参数指定）

node
使用语法：yarn node [options] #打印节点报告

-all #所有的节点，不管是什么状态的。
-list #列出所有 RUNNING 状态的节点。支持-states 选项过滤指定的状态，节点的状态包含：NEW，RUNNING，UNHEALTHY， DECOMMISSIONED，LOST，REBOOTED。支持–all 显示所有的节点。 - -states #和-list 配合使用，用逗号分隔节点状态，只显示这些状态的节点信息。
-status #打印指定节点的状态。