Hadoop集群是一个分布式计算框架,用于存储和处理大规模数据。以下是一些常见的Hadoop集群命令,按功能分类介绍:
1. Hadoop 基础命令
-
查看Hadoop版本
hadoop version
用于查看当前Hadoop的版本信息。
-
查看Hadoop配置文件
hadoop classpath
显示Hadoop的类路径,包括配置文件和依赖库的位置。
2. HDFS(Hadoop Distributed File System)命令
-
查看HDFS文件系统
hadoop fs -ls /
列出HDFS根目录下的文件和目录。
-
创建目录
hadoop fs -mkdir /user/hadoop/mydir
在HDFS中创建一个目录。
-
上传文件
hadoop fs -put localfile /user/hadoop/mydir
将本地文件上传到HDFS的指定目录。
-
下载文件
hadoop fs -get /user/hadoop/mydir/file localdir
将HDFS中的文件下载到本地目录。
-
删除文件或目录
hadoop fs -rm /user/hadoop/mydir/file hadoop fs -rmdir /user/hadoop/mydir
删除HDFS中的文件或目录。
-
查看文件内容
hadoop fs -cat /user/hadoop/mydir/file
查看HDFS中文件的内容。
-
修改文件权限
hadoop fs -chmod 777 /user/hadoop/mydir/file
修改HDFS文件的权限。
3. Hadoop YARN(Yet Another Resource Negotiator)命令
-
查看YARN集群状态
yarn cluster-status
显示YARN集群的状态,包括资源使用情况和节点信息。
-
查看正在运行的应用程序
yarn application -list
列出当前正在运行的YARN应用程序。
-
杀死应用程序
yarn application -kill application_123456789
终止指定的应用程序。
-
查看节点信息
yarn node -status
显示YARN节点的状态和资源使用情况。
4. Hadoop MapReduce 命令
-
运行MapReduce作业
hadoop jar myjob.jar com.example.MyJobDriver -input /user/hadoop/input -output /user/hadoop/output
提交并运行一个MapReduce作业。
-
查看作业状态
hadoop job -status job_123456789
查看MapReduce作业的状态。
5. Hadoop集群管理命令
-
启动Hadoop集群
start-dfs.sh start-yarn.sh
分别启动HDFS和YARN服务。
-
停止Hadoop集群
stop-dfs.sh stop-yarn.sh
分别停止HDFS和YARN服务。
-
格式化HDFS文件系统
hadoop namenode -format
格式化HDFS文件系统,通常在首次安装或重新配置时使用。
-
安全模式操作
hadoop dfsadmin -safemode enter hadoop dfsadmin -safemode leave
进入或退出HDFS的安全模式。
这些命令是Hadoop集群操作的基础,通过它们可以完成文件管理、作业提交、集群监控等常见任务。