hadoop集群搭建(二)——集群环境配置

本文详细介绍了Hadoop集群的搭建过程,包括配置机器IP、设置hosts文件、masters和slaves文件,以及core-site、mapred-site和hdfs-site等关键配置文件的调整。此外还涉及到了SSH免密登录配置、SecondaryNamenode的设置、服务启动流程等内容。
部署运行你感兴趣的模型镜像

团队力量让我们站在云端!

 

真的感觉团队的力量太强大了,整个集群配置能够顺利进行,完全是靠大家合作才能完成。我们确实有很多不明白的地方,但是我们的每一个人都敢于探索,敢于去实践,敢于去做各种尝试,最终的结果就是我们克服了各种困难完成了云端的搭建!

 

好了进入正题,假设每台机器都按照前一篇所属配置好了hadoop环境,那么接下来开始配置集群环境。

 

 

集群配置分为以下几个步骤:

1、 修改机器的IP地址等信息

2、 配置namenode的hosts文件;

3、 配置namenode的masters和slaves文件;

4、 配置namenode的core-site、mapred-site、hdfs-site文件;

5、 远程拷贝(可选操作)上述文件给所有的slaves;

6、 在namenode上生成公钥,远程拷贝公钥给所有的slaves,slaves上将公钥添加到授权文件;

7、s laves ssh连接master;

8、d ata结点启动datanode和tasktracker,name结点启动所有的data结点;

 

 

 

 

一、 修改机器IP;

 

这里我们总共准备了十台机器,依次将机器的IP地址改为192.168.1.2-192.168.1.11

选定11号机器为namenode,10号机器作为secondarynamenode;

 

 

 

 

二、 配置namenode的hosts文件;

sudo gedit /etc/hosts

修改文件如下:

127.0.0.1 localhost

127.0.1.1 ubuntu.ubuntu-domain ubuntu

192.168.1.11 master

192.168.1.7 s7

192.168.1.4 s4

192.168.1.2 s2

192.168.1.3 s3

192.168.1.5 s5

192.168.1.6 s6

192.168.1.8 s8

192.168.1.9 s9

192.168.1.10 s10

 

# The following lines are desirable for IPv6 capable hosts

::1     ip6-localhost ip6-loopback

fe00::0 ip6-localnet

ff00::0 ip6-mcastprefix

ff02::1 ip6-allnodes

ff02::2 ip6-allrouters

 

 

 

 

三、 配置namenode的masters和slaves文件

cd /usr/local/hadoop

sudo gedit conf/masters

修改如下:

master

sudo gedit conf/slaves

s2

s3

S4

s5

S6

S7

S8

S9

这里配置的masters和slaves文件只是作为一种映射关系,将对应的名称映射到hosts文件中的IP;

 

 

 

四、 配置namenode的core-site、mapred-site、hdfs-site文件

   

sudo gedit conf/core-site.xml

  <configuration>   

 <property>   

  <name>fs. default .name</name>   

  <value>hdfs:// master :9000</value>    

 </property>   

 <property>   

  <name>dfs.replication</name>    

  <value>1</value>    

 </property>   

10   <property>   

 

参数详解:第一个属性表示namenode的主机和端口,第二个属性表示hdfs中文件备份个数。

   

sudo gedit conf/mapred-site.xml

  <configuration>   

     <property>    

        <name>mapred.job.tracker</name>   

         <value> master :9001</value>    

     </property>   

</configuration>  

 

   参数详解:JobTracker的主机和端口;

 

    sudo geidt conf/hdfs-site.xml   

 

<property>   

     <name> dfs.name.dir </name>   

     <value> /home/hadoop/hdfs/name </value>   

</property>   

  

<property>   

     <name> dfs.data.dir </name>   

     <value> /home/hadoop/hdfs/data </value>   

</property>   

 

    参数详解:第一个属性表示 NameNode 持久存储名字空间及事务日志的本地文件系统路径。

    第二个属性表示 DataNode 存放块数据的本地文件系统路径    

  

五、远程拷贝(可选操作)slaves上的文件给master;

    scp /etc/hosts hadoop@s2:/etc/hosts

    .

    .

    .

    scp conf/core-site.xml hadoop@s2:/usr/local/hadoop/conf/core-site.xml

    .

    .

    scp conf/mapred-site.xml hadoop@s2:/usr/local/hadoop/conf/mapred-site.xml

    .

    .

    scp conf/hdfs-site.xml hadoop@s2:/usr/local/hadoop/conf/hdfs-site.xml

    .

    data结点上修改master文件同name结点,经过实践我们发现data结点作为slave,slaves文件其实不用修改。

 

 

 

 

六、 在namenode上生成公钥,远程拷贝公钥给所有的slaves,slaves上将公钥添加到授权文件;

    1.  生成公钥: ssh-keygen -t dsa -P "" -f ~/.ssh/id_ r sa    

    2.  远程拷贝: scp  ~/.ssh/id_rsa.pub hadoop@master  ~/.ssh/    

    3.  data结点上添加到收信任列表: cat  ~/.ssh/id_rsa.pub >>  ~/.ssh/authorizedkeys

 

 

 

七、 datanode ssh连接namenode

ssh master

 

 

八、 配置SecondaryNamenode( 号外! )

    修改masters 文件,改为 s10

    修改hdfs-site.xml 文件

     <property>
          <name>dfs.http.address</name>
          <value> 192.168.1.11  :50070</value> >
    </property>

 

 

九、data结点启动datanode和tasktracker,name结点启动所有的data结点

 

       namenode启动之前做一次 block 负载均衡

     sudo gedit  conf/hdfs-site.xml

 

     <property> 
                <name>dfs.balance.bandwidthPerSec</name> 
                <value>10485760</value> 
                <description>
                       Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in 

                       term of the number of bytes per second.
                 </description> 
     </property>  

     bin/start-balancer.sh

 

     在新的结点上启动datanode 

  bin/hadoop-daemon.sh start datanode  

     启动tasktracker

      bin/hadoop-daemon.sh start tasktracker 

     启动SecondaryNameNode

  bin/hadoop-daemon.sh start SecoondaryNameNode

     启动namenode

  bin/start-dfs.sh  

 

       

    连接时可以在namenode上查看连接情况:

      bin/hadoop dfsadmin -report

 

 

    运行测试和单机版基本步骤一致,参见前文!

 

     好了配置完毕!由于是新手,还有N 多问题没有理解,敬请各位大牛指点!不过此文还会经过修改,敬请期待!   

<!--EndFragment-->

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

采用PyQt5框架与Python编程语言构建图书信息管理平台 本项目基于Python编程环境,结合PyQt5图形界面开发库,设计实现了一套完整的图书信息管理解决方案。该系统主要面向图书馆、书店等机构的日常运营需求,通过模块化设计实现了图书信息的标准化管理流程。 系统架构采用典型的三层设计模式,包含数据存储层、业务逻辑层和用户界面层。数据持久化方案支持SQLite轻量级数据库与MySQL企业级数据库的双重配置选项,通过统一的数据库操作接口实现数据存取隔离。在数据建模方面,设计了包含图书基本信息、读者档案、借阅记录等核心数据实体,各实体间通过主外键约束建立关联关系。 核心功能模块包含六大子系统: 1. 图书编目管理:支持国际标准书号、中国图书馆分类法等专业元数据的规范化著录,提供批量导入与单条录入两种数据采集方式 2. 库存动态监控:实追踪在架数量、借出状态、预约队列等流通指标,设置库存预警阈值自动提醒补货 3. 读者服务管理:建立完整的读者信用评价体系,记录借阅历史与违规行为,实施差异化借阅权限管理 4. 流通业务处理:涵盖借书登记、归还处理、续借申请、逾期计算等标准业务流程,支持射频识别技术设备集成 5. 统计报表生成:按日/月/年周期自动生成流通统计、热门图书排行、读者活跃度等多维度分析图表 6. 系统维护配置:提供用户权限分级管理、数据备份恢复、操作日志审计等管理功能 在技术实现层面,界面设计遵循Material Design设计规范,采用QSS样式表实现视觉定制化。通过信号槽机制实现前后端数据双向绑定,运用多线程处理技术保障界面响应流畅度。数据验证机制包含前端格式校验与后端业务规则双重保障,关键操作均设有次确认流程。 该系统适用于中小型图书管理场景,通过可扩展的插件架构支持功能模块的灵活组合。开发过程中特别注重代码的可维护性,采用面向对象编程范式实现高内聚低耦合的组件设计,为后续功能迭代奠定技术基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值