【大数据】总结分享：Hadoop的搭建思路

流辉fglow

于 2024-03-09 18:03:27 发布

阅读量600

点赞数 9

CC 4.0 BY-SA版权

文章标签：大数据 hadoop 分布式学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/flowglow/article/details/136587268

本文详细介绍了Hadoop伪分布式环境的搭建步骤，包括基础设施配置（如Linux环境、Java、SSH免密等），应用部署（配置文件、角色启动和路径），以及为何需要单独为Hadoop配置JAVA_HOME。作者强调了遵循官方文档和步骤顺序的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop的搭建思路

思路
步骤总结（伪分布式）
补充解释

前面，我们已经搭建过单节点的“伪分布式”，现在来分享一下我的搭建思路

因为我现在已经搭建好了多节点的“完全分布式”，发现这个思路很通用，包括在其他很高级的技术里，是非常相通的

后面，还有两次将这个“伪分布式”升级为“完全分布式”，再到“HA模式”；在这两次过程中，动手亲自体会这个代入感

明天会更新：由“伪分布式”到“完全分布式”的搭建过程，务必先熟悉一下流程步骤

思路

官网导读：先过一遍文档，看要干什么，大致理清步骤是什么
细节可以不知道，但是步骤一定不能错，前后依赖关系不要错，每一步发生之前一定要做什么
因为步骤对的时候，再去查细节，搭的时候才能一次成功，绝不是搭一遍失败、搭一遍失败，讲究的是“单位时间内”能干成功什么

强调：步骤是最重要的，因为有依赖关系

步骤总结（伪分布式）

基础设施（通用的）
- 平台：最好是 GNU/Linux ，环境、网络、必须软件
- Linux 系统的配置
  - IP 及主机名
  - 闭：防火墙 & selinux
  - 设置hosts映射
  - 时间同步
  - 安装环境（Java）
  - 设置SSH免密

应用的搭建：部署配置
- 部署路径
- 配置文件
  - Hadoop需要Java环境（应该没说过为什么，在下面解释一下）
  - 各角色在哪里启动
    - NN：core-site.xml：fs.defaultFS hdfs://node01:9000
    - DN：slaves：node01
    - ……
  - 角色启动时的细节配置：文件存放的地方（目录）
    - dfs.namenode.name.dir
    - dfs.datanode.data.dir
    - ……

格式化 / 初始化和运行
- 格式化：格式掉旧的，生成新的空的文件
  - Fsimage
  - VERSION
- 运行：启动角色进程
  - start-dfs.sh
    加载我们的配置文件，通过ssh 免密的方式去启动相应的角色
  - jps命令看启动的JVM进程

命令行使用和验证知识点

补充解释

为什么要给Hadoop单独配置JAVA_HOME，不是给系统配过JAVA_HOME了吗，它去系统找不可以吗？

因为NN要想使用hadoop的配置文件去启动别节点，那么NN要用ssh免密登录别节点，需要Java命令启动进程
问题就出在ssh登录，ssh登录的Shell，并不会加载/etc/profile，所以里面的JAVA_HOME对Hadoop脚本来说相当于没有
所以要单独给Hadoop-env.sh配置一个JAVA_HOME

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。