Hadoop格式化hdfs

0.停止集群

./stop-all.sh

1.删除目录

格式化NameNode时,会产生新的clusterID,导致NameNode和DataNode的clusterID不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode。
data数据目录在hdfs-site.xml中的dfs.datanode.data.dir。

        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///opt/hadoop/hadoop-2.7.2/mydata/data</value>
        </property>

logs目录在HADOOP-HOME下。

2.格式化

hdfs namenode -format

注意,在集群模式下请启动jounalnode

# 全局启动journalnode
./hadoop-daemons.sh start journalnode
# 或者一台一台启动
./hadoop-daemon.sh start journalnode
Hadoop中,HDFSHadoop Distributed File System)是分布式存储的核心组件之一,它支持高容错性、大数据存储以及通过简单的一致性模型来简化客户端的开发。格式化HDFS是指首次设置Hadoop集群时,初始化HDFS文件系统的元数据存储目录,即NameNode上的FsImage和JournalNode(在支持高可用的集群中)等关键数据结构的过程。 VM虚拟机中运行Hadoop时,格式化HDFS通常遵循以下步骤: 1. 安装好Hadoop,并确保环境变量配置正确,以便在任何地方通过命令行访问Hadoop的可执行文件。 2. 在执行格式化之前,首先需要启动Hadoop集群的各个守护进程。通常,这包括NameNode、DataNode、SecondaryNameNode(如果使用了高可用性配置,则可能还包括JournalNodes和ZooKeeper等)。 3. 使用Hadoop自带的格式化命令来格式化HDFS。这个命令通常是在NameNode上执行的,格式如下: ``` hdfs namenode -format ``` 注意:在执行这个命令之前,请确保集群的守护进程已经停止,因为格式化操作会删除HDFS上的所有数据和元数据,因此在生产环境中需要非常谨慎使用。 4. 格式化完成后,再次启动Hadoop集群的守护进程,并且可以通过运行一些基本的命令(比如查看HDFS状态的命令)来验证格式化是否成功。 5. 对于高可用性配置的集群,格式化过程中还需要特别注意ZooKeeper集群的配置,确保所有节点都正确地参与到集群的高可用性设置中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值