Hadoop集群的搭建与管理
1. HADOOP简介
Hadoop 是一种用于大规模数据处理的大数据框架,支持通过简单编程模型实现跨计算机集群的数据分布存储和计算3。
2. HADOOP集群部署过程
(1) 解压并安装HADOOP
在虚拟机环境中,可以通过解压缩方式完成Hadoop的安装。以下是具体命令:
Bash
tar -zxvf /export/software/hadoop-2.7.4.tar.gz -C /export/servers/
此命令会将Hadoop软件包解压至指定的应用程序目录/export/servers/
下4。
(2) 配置文件同步
为了确保所有节点上的配置一致,通常使用工具脚本来分发配置文件。例如,可以利用以下命令来同步YARN的相关配置文件:
Bash
xsync /opt/module/hadoop-3.3.4/etc/hadoop/yarn-site.xml
上述命令能够快速将核心配置文件传播到整个集群中的各个节点上2。
3. 常用管理命令
(1) 启动NAMENODE守护进程
启动HDFS的核心组件——NameNode服务时,可执行如下命令:
Bash
/usr/local/hadoop/sbin/hadoop-daemon.sh start namenode
(2) 停止NAMENODE守护进程
当需要停止NameNode服务时,则运行下面这条指令即可:
Bash
/usr/local/hadoop/sbin/hadoop-daemon.sh stop namenode
该命令适用于单台机器的操作场景,在实际生产环境可能还需要配合其他辅助工具一起工作以保障高可用性1。
(3) 查看HADOOP集群状态
要获取当前Hadoop集群的状态概览信息,可以用JPS命令验证各主要服务是否正常运行:
Bash
jps
理想情况下应该能看到包括但不限于以下几个关键进程:NameNode、DataNode、ResourceManager以及NodeManager等。
(4) 格式化HDFS文件系统
首次初始化或者重新构建一个新的HDFS实例之前,往往有必要对其进行格式化操作,这一步骤可通过下列语句达成目的:
Bash
hdfs namenode -format
(5) 开启全部HADOOP相关服务
如果希望一键开启所有的Hadoop关联的服务项目,那么可以直接调用start-all.sh脚本:
Bash
start-all.sh
同样地,关闭所有正在运作中的Hadoop服务也可以借助stop-all.sh脚本来简化流程:
Bash
stop-all.sh
上传文件
hadoop fs -put a.txt /a/b
下载文件
hadoop fs -get /a/b/* ./
查看文件
hadoop fs -ls /a/b
递归删除文件夹
hadoop fs -rm -r /a/b
分屏查看
hadoop fs -cat /a/b/* | more
把hdfs一堆小文件合并到本地的一个文件中
hadoop fs -cat /a/b/* >> test.csv
统计文件行数
hadoop fs -cat /a* | wc -l
统计文件大小
hadoop fs -count -h /file
du统计文件大小
hadoop fs -du -h / # 统计文件夹下每个文件的大小
hadoop fs -du -s -h / #统计这个文件夹总大小,返回的数据是,文件夹大小,备份总大小
hadoop fs -count / # 统计文件数量,返回的数据是目录个数,文件个数,文件总计大小,输入路径
yarn
杀死yarn任务
yarn application -kill application_id
查看yarn日志
yarn logs -applicationId application_id > logs.txt
查看yarn正在运行的任务列表
yarn application -list
查找yarn已经完成的任务列表
yarn application -appStates finished -list
查找yarn所有任务列表
yarn application -appStates ALL -list
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.youkuaiyun.com/2401_87138526/article/details/146881889