配置HDFS

这篇博客详细介绍了配置和使用HDFS的过程,包括Linux的常用shell命令、HDFS的shell命令,如创建目录、删除文件等,以及通过Java进行HDFS操作的程序示例。还提供了实验步骤,包括在Eclipse中创建Maven项目,编写并运行Java程序,以及检查运行结果的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Linux的shell命令

常用的linux的shell命令:

cd /aa          转到/aa目录

pws            显示当前目录

ll /aa           显示/aa目录

mkdir /aa       新建/aa目录

rm /aa/out.txt   删除/aa目录下的out.txt文件

cat /aa/out.txt   查看/aa目录下的out.txt文件的内容

vi /aa/out.txt    编辑/aa目录下的out.txt文件的内容

ifconfig         查看IP地址

ip addr         查看IP地址

hdfs的shell命令

hdfs的shell命令,有三种形式,用前面两个。

hdfs dfs    √

hadoop fs  √

hadoop dfs  ×

常用的hdfs的shell命令:

hdfs dfs -ls /  查看hdfs根目录下文件和目录

hdfs dfs -ls -R /      查看hdfs根目录下包括子目录在内的所有文件和目录

hdfs dfs -mkdir /aa/bb  在hdfs的/aa目录下新建/bb目录

hdfs dfs -rm -r /aa/bb   删除hdfs的/aa目录下的/bb目录

hdfs dfs -rm /aa/out.txt  删除hdfs的/aa目录下的out.txt文件

 

hdfs dfs -put anaconda-ks.cfg /aa        把本地文件上传到hdfs

hdfs dfs -copyFromLocal a.txt /          把本地文件上传到hdfs

hdfs dfs -get /bb.txt bbcopy.txt          从hdfs下载文件到本地

hdfs dfs -copyToLocal /bb.txt bbcopy.txt   从hdfs下载文件到本地

 

HDFS的Java程序

HDFSMKdir.java新建HDFS目录/aadir。

HDFSUpload.java写入/上传 本地文件c:\\hdfs\\aa.txt 到HDFS的/aadir目录下

加载包:

HDFSDownload.java读/下载 HDFS的根目录文件/bb.txt 到本地c:\\hdfs目录下

加载包:

HDFSFileIfExist.java查看HDFS文件/bb.txt是否存在。

实验步骤

  1. 搭建Hadoop伪分布式模式、或者完全分布式模式
  2. Windows里安装配置JDK+Eclipse+Maven
  3. 在Eclipse里新建Maven Project,新建包,新建class
  4. 编程上述4个Java程序
  5. 虚拟机的namenode主机上,启动Hadoop
  6. 在eclipse里运行上述4个Java程序
  7. 使用hdfs的shell命令查看运行结果
  8. 使用web console查看运行结果
### 如何配置 HDFS(Hadoop 分布式文件系统) #### 系统准备 在 Linux 操作系统上安装和配置 HDFS 前,需确认系统的最低要求已满足。这通常涉及 Java 版本、内存大小和其他依赖项的检查[^1]。 #### 安装 Hadoop 及其环境变量设置 完成基本准备工作之后,下载适合操作系统的 Hadoop 发行版并解压到指定目录。接着,在 `.bashrc` 或者其他 shell 初始化脚本中添加如下环境变量: ```shell export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin ``` 上述命令假设 `/path/to/hadoop` 是 Hadoop 解压缩后的根路径;实际使用时应替换为具体的安装位置。 #### 修改核心配置文件 主要修改三个 XML 文件来定制 HDFS 行为:`core-site.xml`, `hdfs-site.xml` 和 `mapred-site.xml`. 对于 `core-site.xml`: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` 此部分定义了默认文件系统的 URI 地址以及 NameNode 的监听端口。 针对 `hdfs-site.xml`: ```xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/app/nn/data</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/app/dn/data</value> </property> </configuration> ``` 这里设置了副本因子 (`dfs.replication`) 以及其他重要参数如 NameNode 和 DataNodes 上的数据存储路径。 最后是 `mapred-site.xml`: ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 这段配置指定了 MapReduce 应用程序运行框架的名字空间。 #### 启动服务 通过执行以下 Shell 脚本来启动所有必要的守护进程: ```shell sbin/start-dfs.sh sbin/start-yarn.sh ``` 这些指令将会依次开启 NameNode, SecondaryNameNode 和 DataNodes. #### 测试集群状态 一旦成功部署完毕,则可通过浏览器访问 http://master-node-ip:50070 来查看 Web UI 中展示出来的整个 HDFS 集群的状态信息。 以上即是在 Linux 下配置 HDFS 所需的主要步骤概述。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值