Haddoop大数据教程笔记_03_Hadoop安装部署及HDFS文件系统操作

本文详细介绍了Hadoop的安装部署流程,包括下载、配置、环境变量设定及HDFS文件系统的基本操作,如文件上传、下载、移动、删除等,并提供了在Windows环境下操作Hadoop的特殊配置说明。

目录

1. Hadoop安装部署

    1.1 Hadoop安装包下载:

    1.2 下载后上传文件并解压:

2.HDFS文件系统操作

2.1修改配置文件

2.1.1 修改hadoop-env.sh 指定Java的安装目录

2.1.2 修改core-site.xml  --指定hadoop的默认文件系统

2.1.3 修改hdfs-site.xml   指定namenode、datanode存储的本地目录

2.1.4 拷贝整个hadoop安装目录到其他机器(先创建apps目录)

2.1.5 配置Hadoop命令的环境变量,便于手动启动和调试

2.2启动hdfs

2.2.1 初始化namenode的元数据目录

2.2.2 启动namenode进程(在master上)

2.2.3 启动多个datanode(在任意节点)

2.2.4 用自动批量启动脚本来启动HDFS

2.3 hdfs的客户端操作

2.3.1 hdfs命令行客户端的常用操作命令

2.3.2 hdfs的java客户端编程

2.3.3 hadoop 在 windons 上操作需先修改以下内容:

主要配置文件

后续分享工作原理>


1. Hadoop安装部署

    1.1 Hadoop安装包下载:

        https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/

        具体目录: 

https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz

    1.2 下载后上传文件并解压:

tar -zxvf hadoop-2.10.0.tar.gz -C /apps

        解压后可删除压缩包和/share/doc 文件夹(文档),节省空间。

 

 

2.HDFS文件系统操作

2.1修改配置文件

需要修改以下参数

1)指定hadoop的默认文件系统为:hdfs

2)指定hdfs的namenode节点为哪台机器

3)指定namenode软件存储元数据的本地目录

4)指定datanode软件存放文件块的本地目录

 

配置文件目录:/root/apps/hadoop-2.10.0/etc/hadoop

2.1.1 修改hadoop-env.sh 指定Java的安装目录

export JAVA_HOME=/root/apps/jdk

2.1.2 修改core-site.xml  --指定hadoop的默认文件系统

  <configuration>
  <property>
  <name>fs.defaultFS</name>
  <value>hdfs://hdp-01:9000</value>
  </property>
  </configuration>

2.1.3 修改hdfs-site.xml   指定namenode、datanode存储的本地目录

  <configuration>
  <property>
  <name>dfs.namenode.name.dir</name>
  <value>/root/dfs/name</value>
  </property>
​
  <property>
  <name>dfs.datanode.data.dir</name>
  <value>/root/dfs/data</value>
  </property>
  </configuration>

2.1.4 拷贝整个hadoop安装目录到其他机器(先创建apps目录)

  scp -r /root/apps/hadoop-2.10.0 hdp-01:/root/apps/hadoop-2.10.0
  scp -r /root/apps/hadoop-2.10.0 hdp-02:/root/apps/hadoop-2.10.0
  scp -r /root/apps/hadoop-2.10.0 hdp-03:/root/apps/hadoop-2.10.0

2.1.5 配置Hadoop命令的环境变量,便于手动启动和调试

  vi /etc/profile
  export HADOOP_HOME=/root/apps/hadoop-2.10.0
  export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2.2启动hdfs


2.2.1 初始化namenode的元数据目录

hadoop namenode -format
# 创建一个全新的元数据存储目录
# 生成记录元数据的文件fsimage
# 生成集群的相关标识:如:集群id——clusterID等,再次初始化时变更。

 

        已生成datanode数据后,初始化namenode,会导致2者的clusterID不一致而无法启动dataNode.

解决方法:

修改以下文件内的clusterID,保持一致即可

vi /root/dfs/data/current/VERSION

vi /root/dfs/data/current/VERSION

2.2.2 启动namenode进程(在master上)

  hadoop-daemon.sh start namenode
  # 可以浏览器访问namenode提供的web端口:50070

2.2.3 启动多个datanode(在任意节点)

  hadoop-daemon.sh start datanode

2.2.4 用自动批量启动脚本来启动HDFS

先配置master到集群中所有节点(包含自己)的免密登陆

修改hadoop安装目录中/etc/hadoop/slaves(把需要启动datanode进程的节点列入)

hdp-01
hdp-02
hdp-03
hdp-04

master上执行:(或同步所有节点/profile文件及互相之间的免密登录后,任意节点执行)

  start-dfs.sh
  stop-dfs.sh

 

2.3 hdfs的客户端操作

hdfs的客户端有多种形式:网页形式、命令行形式、客户端在哪里运行,没有约束,只要运行客户端的机器能够跟hdfs集群联网

文件的切块大小和存储的副本数量,都是由客户端决定,是通过配置参数来定的

切块大小的参数:dfs.blocksize

副本数量的参数:dfs.replication

上面两个参数应该配置在客户端机器的hadoop目录中的hdfs-site.xml中配置

  <property>
  <name>dfs.blocksize</name>
  <value>64m</value>
  </property>
  <property>
  <name>dfs.replication</name>
  <value>2</value>
  </property>

2.3.1 hdfs命令行客户端的常用操作命令

  hadoop fs -ls /hdfs路径   # 查看hdfs中的目录信息
​
  hadoop fs -put /本地文件  /aaa   # 上传文件到hdfs中
  hadoop fs -copyFromLocal /本地文件  /hdfs路径   # copyFromLocal等价于 put
  hadoop fs -moveFromLocal /本地文件  /hdfs路径   # 跟copyFromLocal的区别是:从本地移动到hdfs中
​
  hadoop fs -get /hdfs中的路径   /本地磁盘目录  # 下载文件到客户端本地磁盘
  hadoop fs -copyToLocal /hdfs中的路径 /本地磁盘路径   # 跟get等价
  hadoop fs -moveToLocal /hdfs路径  /本地路径  # 从hdfs中移动到本地
​
  hadoop fs -mkdir  -p /aaa/xxx   # 在hdfs中创建文件夹
​
  hadoop fs -mv /hdfs的路径  /hdfs的另一个路径   # 移动hdfs中的文件(更名)
  hadoop fs -cp /hdfs的路径  /hdfs的另一个路径   # 复制hdfs中的文件(更名)
​
  hadoop fs -rm -r /aaa     #删除hdfs中的文件或文件夹
  hadoop fs -chown user:group /aaa  #  修改文件的用户、组   可设置系统不存在的用户和组,与linux不同
  hadoop fs -chmod 700 /aaa         #  修改文件的权限
  hadoop fs -appendToFile /本地文件   /hdfs中的文件   #  追加内容到已存在的文件
  hadoop fs -cat /hdfs中的文件    # 显示文本文件内容
  hadoop fs -tail /hdfs中的文件   # 显示文本文件尾部内容  -f实时  默认20行 没有-n 控制行数功能

 

2.3.2 hdfs的java客户端编程

将hdfs客户端开发所需的jar导入工程

\common\hadoop-common-2.10.0.jar
\common\lib
\hdfs\hadoop-hdfs-2.10.0
\hdfs\hadoop-hdfs-client-2.10.0
\hdfs\lib

hdfs文件客户端创建

public static void main(String[] args) throws Exception {
    /**
     * Configuration参数对象的机制:
     *    构造时,会加载jar包中的默认配置 xx-default.xml
     *    再加载 用户配置xx-site.xml  ,覆盖掉默认参数
     *    构造完成之后,还可以conf.set("p","v"),会再次覆盖用户配置文件中的参数值
     */
    // new Configuration()会从项目的classpath中加载core-default.xml hdfs-default.xml core-site.xml hdfs-site.xml等文件
    Configuration conf = new Configuration();
​
    // 指定本客户端上传文件到hdfs时需要保存的副本数为:2
    conf.set("dfs.replication", "2");
    // 指定本客户端上传文件到hdfs时切块的规格大小:64M
    conf.set("dfs.blocksize", "64m");
​
    // 构造一个访问指定HDFS系统的客户端对象: 参数1:——HDFS系统的URI,参数2:——客户端要特别指定的参数,参数3:客户端的身份(用户名)
    FileSystem fs = FileSystem.get(new URI("hdfs://master:9000/"), conf, "root");
​
    // 上传一个文件到HDFS中
    fs.copyFromLocalFile(new Path("D:/jdk-8u141-linux-x64.tar"), new Path("/aaa/"));
​
    fs.close();
  }


fs.copyToLocalFile(new Path("/hdp20-05.txt"), new Path("f:/"));  //从HDFS中下载文件到客户端本地磁盘
  
fs.rename(new Path("/install.log"), new Path("/aaa/in.log"));   //在hdfs内部移动文件\修改名称
  
fs.mkdirs(new Path("/xx/yy/zz"));    //在hdfs中创建文件夹
  
fs.delete(new Path("/aaa"), true);   //在hdfs中删除文件或文件夹
  
//查询hdfs指定目录下的文件信息
RemoteIterator<LocatedFileStatus> iter = fs.listFiles(new Path("/"), true);  
while(iter.hasNext()){
LocatedFileStatus status = iter.next();
System.out.println("文件全路径:"+status.getPath());
System.out.println("块大小:"+status.getBlockSize());
System.out.println("文件长度:"+status.getLen());
System.out.println("副本数量:"+status.getReplication());
System.out.println("块信息:"+Arrays.toString(status.getBlockLocations()));
}

 

2.3.3 hadoop 在 windons 上操作需先修改以下内容:

1)下载winutils工具

https://github.com/steveloughran/winutils

解压后选择就近版本的hadoop/bin 替换Hadoop安装包下的/bin目录

2)配置环境变量

HADOOP_HOME  E:\hadoop-2.10.0  #hadoop安装目录

PATH  ;E:\hadoop-2.10.0\bin    #hadoop/bin目录

Java环境变量配置不赘述

 

主要配置文件

core-default.xml 
hdfs-default.xml
core-site.xml 
hdfs-site.xml

 

后续分享<hdfs工作原理>

<think>好的,我现在需要帮助用户解决在Windows环境下Hadoop 2.7.6找不到winutils.exe的问题,同时配置Map/Reduce项目的引用库。首先,我得回顾用户的问题和之前的回答,确保不重复并覆盖所有细节。 用户提到错误信息是“Could not locate executable null \bin\winutils.exe”和“Unable to load native-hadoop library”,这说明系统找不到winutils.exe和hadoop.dll。根据引用[1]和[2],解决方案是下载这两个文件并放到Hadoop的bin目录。但用户现在用的是Hadoop 2.7.6,可能需要特定版本的winutils。之前的回答可能提到过2.7.4的配置,但用户现在版本不同,需要注意版本匹配。 首先,确认winutils.exe和hadoop.dll的正确来源。通常这些文件需要对应Hadoop的版本,用户可能从非官方渠道获得,比如GitHub上的资源。需要指导用户下载适用于2.7.6的文件,并检查权限问题,比如是否需要在Windows中设置可执行权限或者添加环境变量。 接下来是配置引用库的问题。用户之前可能尝试在Eclipse中手动添加JAR包,但可能遇到路径问题或版本冲突。需要详细说明如何正确添加Hadoop的核心JAR包,如common、hdfsmapreduce等模块的JAR文件,以及处理可能的依赖冲突,比如使用Maven管理依赖。 另外,用户提到在IDEA中运行代码时出现问题,可能需要配置运行环境,特别是设置HADOOP_HOME环境变量,并确保IDE能够识别本地库路径。此外,用户可能需要配置项目的构建路径,包括添加必要的库和排除冲突的依赖项。 还要考虑用户可能遇到的权限问题,比如winutils.exe需要管理员权限运行,或者防病毒软件阻止了这些文件的执行。需要提醒用户检查这些方面,并指导如何设置环境变量PATH和HADOOP_HOME。 最后,验证步骤很重要,建议用户编写一个简单的WordCount程序测试配置是否正确,确保所有依赖库正确加载,并且没有类路径或版本冲突的问题。同时,如果用户使用Maven或Gradle,提供相应的配置示例会更有帮助,确保依赖版本一致。 总结来说,需要分步骤指导用户下载正确的文件配置环境变量,添加引用库,处理依赖冲突,并进行验证测试,确保所有问题都得到解决。</think>### 解决方案:解决Hadoop 2.7.6在Windows下缺失winutils.exe及配置引用库 --- #### 一、修复winutils.exe缺失问题 1. **下载适用于Hadoop 2.7.6的Windows工具包** - **来源**:从可靠仓库(如GitHub的[winutils](https://github.com/cdarlint/winutils))下载 `hadoop-2.7.6` 对应的 `winutils.exe` 和 `hadoop.dll`[^1] - **存放路径**: - 将文件放入Hadoop安装目录的 `bin` 文件夹(如 `D:\hadoop-2.7.6\bin`) 2. **配置系统环境变量** - **设置 `HADOOP_HOME`**: ```shell HADOOP_HOME=D:\hadoop-2.7.6 ``` - **添加 `PATH` 路径**: ```shell PATH=%HADOOP_HOME%\bin;%PATH% ``` - **验证**:在命令行执行 `winutils.exe`,确保无权限错误(若提示权限问题,右键文件 → 属性 → 解除锁定)[^1] 3. **解决本地库加载失败** - **确保文件完整性**:确认 `hadoop.dll` 存在于 `%HADOOP_HOME%\bin` - **禁用Windows Defender/杀毒软件**:临时关闭可能拦截文件的防护程序 - **手动加载本地库**:在代码中添加以下语句(仅调试用) ```java System.setProperty("hadoop.home.dir", "D:\\hadoop-2.7.6"); ``` --- #### 二、配置Map/Reduce项目的Referenced Libraries 1. **手动添加Hadoop核心JAR包** - **定位JAR文件**:进入Hadoop安装目录的 `share/hadoop` 子目录,添加以下关键库: - **common**:`hadoop-common-2.7.6.jar`, `hadoop-annotations-2.7.6.jar` - **hdfs**:`hadoop-hdfs-2.7.6.jar` - **mapreduce**:`hadoop-mapreduce-client-core-2.7.6.jar` - **操作步骤**(以Eclipse为例): - 右键项目 → `Build Path > Configure Build Path` → `Add External JARs` → 选择上述文件 2. **处理依赖冲突** - **排除冲突库**: - 检查是否引入多个版本的 `guava`(Hadoop 2.7.x需 `guava-11.0.2.jar`) - 在构建路径中移除高版本(如 `guava-30.0-jre.jar`) - **强制指定本地库路径**:在运行配置中添加JVM参 ```shell -Djava.library.path=D:\hadoop-2.7.6\bin ``` 3. **使用Maven管理依赖(推荐)** - **pom.xml配置示例**: ```xml <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.6</version> <exclusions> <exclusion> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> </exclusion> </exclusions> </dependency> <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>11.0.2</version> <!-- 强制指定兼容版本 --> </dependency> ``` --- #### 三、验证配置 1. **运行简单MapReduce任务** - **WordCount测试**: ```java public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); conf.set("mapreduce.framework.name", "local"); Job job = Job.getInstance(conf, "word count"); // ...(标准WordCount代码) System.exit(job.waitForCompletion(true) ? 0 : 1); } ``` - **检查日志**:若输出 `Using builtin-java classes` 消失,表示本地库加载成功[^2] 2. **IDE特定配置(IntelliJ IDEA)** - **编辑运行配置**: - 在 `VM Options` 中添加: ```shell -Djava.library.path=D:\hadoop-2.7.6\bin -Dhadoop.home.dir=D:\hadoop-2.7.6 ``` - 勾选 `Include dependencies with "Provided" scope` --- ### 相关问题 1. 如何调试Hadoop本地库加载失败的具体原因? 2. 在IntelliJ IDEA中如何配置Hadoop开发环境? 3. Hadoop 2.x与Hadoop 3.x在Windows支持上有何差异? --- ### 关键点总结 | 步骤 | 操作 | 验证方法 | |------|------|----------| | 修复winutils缺失 | 下载文件配置环境变量 | 命令行执行 `winutils.exe` | | 添加Hadoop JAR包 | 手动或通过Maven引入 | 项目无编译错误 | | 处理依赖冲突 | 排除冲突版本 | 运行时无 `NoSuchMethodError` | | 验证本地库 | 运行WordCount程序 | 日志无警告且输出正确结果 | 通过以上步骤,可系统性解决Windows下Hadoop环境配置问题[^1][^2]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值