实训云上搭建大数据集群

文章目录

1. 登录实训云

1.1 实训云网址

  • 网址:http://192.168.192.40
    在这里插入图片描述

1.2 登录实训云

  • 输入用户名和密码
    在这里插入图片描述

  • 登录成功后显示首页
    在这里插入图片描述

2. 创建网络

2.1 网络概述

  • 网络名为huawei,子网为huawei_subnet,网络地址为192.168.1.0/24,分配地址池192.168.1.2,192.168.1.254,DNS设置为114.114.114.114。此网络结构清晰,地址配置明确,具备基础的网络配置要素,可满足一般网络应用场景下的设备接入与通信需求。

2.2 创建步骤

  • 显示【网络】页面
    在这里插入图片描述

  • 单击【创建网络】按钮,在弹出的对话框里设置网络基本信息
    在这里插入图片描述

  • 单击【确定】按钮,成功创建网络huawei
    在这里插入图片描述

3. 创建路由器

3.1 路由器名称

  • 路由器名称:huawei_router

3.1 创建路由器

  • 显示【路由器】页面
    在这里插入图片描述

  • 单击【创建路由器】按钮,在弹出的对话框里设置路由器基本信息
    在这里插入图片描述

  • 单击【确定】按钮,成功创建路由器
    在这里插入图片描述

4. 连接子网

  • 显示【路由器】页面
    在这里插入图片描述

  • 单击【更多】右边的箭头弹出下拉菜单
    在这里插入图片描述

  • 单击【连接子网】菜单选项,连接网络huawei与子网huawei_subnet
    在这里插入图片描述

  • 单击【确定】按钮,提示连接子网成功
    在这里插入图片描述

5. 创建虚拟网卡

5.1 创建原因

  • 创建虚拟网卡是为了给云主机分配固定IP地址。云主机在网络中运行,若需稳定的网络标识和连接,固定IP不可或缺。虚拟网卡充当云主机与网络间的桥梁,通过创建它并绑定固定IP,可确保云主机在网络中的唯一性和稳定性,便于管理与访问。

5.2 查看端口

  • 显示【端口】页面
    在这里插入图片描述

5.3 创建虚拟网卡

  • 单击【创建虚拟网卡】按钮,弹出对话框设置虚拟网卡基本信息
    在这里插入图片描述

  • 单击【确定】按钮,成功创建虚拟网卡port101
    在这里插入图片描述

  • 同理创建虚拟网卡port102port103
    在这里插入图片描述

6. 管理安全组规则

6.1 为什么要管理安全组规则

  • 管理安全组规则至关重要,因为后续使用FinalShell工具软件通过SSH连接云主机时,需设置规则放开ICMP协议和TCP协议入口的全部端口。这样能确保连接的顺利进行,同时保障网络安全,在满足连接需求的前提下,有效控制网络访问权限,防止潜在的安全威胁。

6.2 在默认安全组里创建规则

  • 显示【安全组】页面
    在这里插入图片描述

  • 单击【创建规则】按钮,弹出对话框
    在这里插入图片描述

  • 设置所有TCP协议
    在这里插入图片描述

  • 单击【确定】按钮,提示“创建规则成功”
    在这里插入图片描述

  • 单击【创建规则】按钮,弹出对话框,设置所有ICMP协议
    在这里插入图片描述

  • 单击【确定】按钮,提示“创建规则成功”
    在这里插入图片描述

7. 创建云主机

7.1 创建云主机bigdata1

  • 显示【云主机】页面
    在这里插入图片描述

  • 单击【创建云主机】按钮,在弹出的对话框里设置云主机基本信息
    在这里插入图片描述

  • 单击【下一步:网络配置】按钮,在弹出的对话框里选择port101端口,勾选default安全组
    在这里插入图片描述

  • 单击【下一步:系统配置】按钮,在弹出的对话框里设置名称与登录密码
    在这里插入图片描述

  • 单击【下一步:确认配置】按钮
    在这里插入图片描述

  • 单击【确定】按钮,成功创建云主机bigdata1,有固定IP地址192.168.1.101
    在这里插入图片描述

  • 内网IP有两个,我们要解绑192.168.1.46
    在这里插入图片描述

  • 云主机bigdata1内网IP:192.168.1.101
    在这里插入图片描述

7.2 创建云主机bigdata2

  • 同理创建云主机bigdata2,有固定IP地址192.168.1.102
    在这里插入图片描述

7.3 创建云主机bigdata3

  • 同理创建云主机bigdata3,有固定IP地址192.168.1.103
    在这里插入图片描述

8. 绑定浮动IP地址

8.1 为何要绑定

  • 绑定浮动IP地址是实现FinalShell远程连接云主机的关键步骤。浮动IP地址具有灵活性,可与云主机动态绑定,即便云主机发生故障迁移等情况,IP地址仍可保持不变,从而确保FinalShell能够稳定地远程连接到云主机,保障远程操作的连续性和可靠性。

8.2 申请浮动IP地址

  • 显示【浮动IP】页面
    在这里插入图片描述

  • 单击【申请IP】按钮,在弹出的对话框里设置网络信息与批量申请数量
    在这里插入图片描述

  • 单击【确定】按钮,成功申请了三个浮动IP地址
    在这里插入图片描述

8.3 绑定浮动IP地址

  • 显示【云主机】页面

  • 给云主机bigdata1绑定浮动IP地址,【更多】下拉菜单的子菜单【关联资源】,【关联资源】的子菜单【绑定浮动IP】
    在这里插入图片描述

  • 单击【绑定浮动IP】菜单项,将云主机IP与浮动IP地址进行绑定
    在这里插入图片描述

  • 单击【确定】按钮,成功给云主机bigdata1绑定浮动IP地址
    在这里插入图片描述

  • 同理,给云主机bigdata2bigdata3绑定相应的浮动IP地址
    在这里插入图片描述

9. 远程连接云主机

9.1 启动FinalShell

  • 启动FinalShell,目前尚未创建任何远程连接
    在这里插入图片描述

9.2 远程连接云主机bigdata1

  • 弹出【连接管理器】
    在这里插入图片描述

  • 新建SSH连接
    在这里插入图片描述

  • 单击【SSH连接(Linux)】,在弹出的对话框里设置常规和认证信息,注意密码是123456
    在这里插入图片描述

  • 单击【确定】按钮,成功创建连接bigdata1
    在这里插入图片描述

  • 单击bigdata1连接,弹出【安全警告】对话框
    在这里插入图片描述

  • 单击【接受并保存】按钮
    在这里插入图片描述

9.3 远程连接云主机bigdata2

  • 同理,远程连接云主机bigdata2
    在这里插入图片描述

9.4 远程连接云主机bigdata3

  • 同理,远程连接云主机bigdata3
    在这里插入图片描述

10. 修改本地的IP与主机名映射文件

  • 在文件C:\Windows\System32\drivers\etc\hosts里添加三条映射
    在这里插入图片描述

    192.168.224.36 bigdata1
    192.168.227.230 bigdata2
    192.168.228.14 bigdata3
    

11. 本机Ping云主机

11.1 按IP地址来Ping

  • 执行命令:ping 192.168.224.36
    在这里插入图片描述

11.2 按主机名来Ping

  • 执行命令:ping bigdata1
    在这里插入图片描述

12. 修改配置文件

12.1 修改hdfs-site.xml文件

  • 执行命令:cd $HADOOP_HOME/etc/hadoop
    在这里插入图片描述
  • 执行命令:vim hdfs-site.xml,添加红框内属性,禁用所有权限检查
    在这里插入图片描述
  • 执行命令:scp hdfs-site.xml root@bigdata2:$HADOOP_HOME/etc/hadoop
    在这里插入图片描述
  • 执行命令:scp hdfs-site.xml root@bigdata3:$HADOOP_HOME/etc/hadoop
    在这里插入图片描述

12.2 修改log4j.properties文件

  • 执行命令:vim log4j.properties,添加一句:log4j.logger.org.apache.hadoop=ERROR
    在这里插入图片描述
  • 执行命令:scp log4j.properties root@bigdata2:$HADOOP_HOME/etc/hadoop
    在这里插入图片描述
  • 执行命令:scp log4j.properties root@bigdata3:$HADOOP_HOME/etc/hadoop
    在这里插入图片描述

13. 启动大数据集群服务

  • 在云主机bigdata1上,执行命令:allstart.sh
    在这里插入图片描述

  • 执行命令:jps
    在这里插入图片描述

  • 查看Hadoop的Web UI页面 - http://bigdata1:9870
    在这里插入图片描述

  • 查看HDFS文件系统
    在这里插入图片描述

14. 完成词频统计任务

14.1 准备数据文件

  • 执行命令:vim words.txt
    在这里插入图片描述

    hello world hello hadoop
    hello hive hello spark
    hello a big data world
    hello I love big data
    hello I learn big data
    
  • 执行命令:hdfs dfs -mkdir -p /wordcount/input
    在这里插入图片描述

  • 执行命令:hdfs dfs -put words.txt /wordcount/input
    在这里插入图片描述

14.2 利用MR实现词频统计

14.2.1 创建Maven项目

  • 设置项目基本信息
    在这里插入图片描述
  • 单击【Create】按钮,生成项目基本骨架
    在这里插入图片描述

14.2.2 添加hadoop依赖

  • pom.xml里添加hadoop和junit依赖
    在这里插入图片描述
  • 刷新项目依赖
    在这里插入图片描述

14.2.3 创建日志属性文件

  • resources里创建log4j.properties文件
    在这里插入图片描述

    log4j.rootLogger=ERROR, stdout, logfile
    log4j.appender.stdout=org.apache.log4j.ConsoleAppender
    log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
    log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
    log4j.appender.logfile=org.apache.log4j.FileAppender
    log4j.appender.logfile.File=target/wordcount.log
    log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
    log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
    

14.2.4 创建词频统计映射器类

  • 创建net.huawei.mr
    在这里插入图片描述

  • net.huawei.mr包里创建WordCountMapper
    在这里插入图片描述

    package net.huawei.mr;
    
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Mapper;
    
    import java.io.IOException;
    
    /**
     * 功能:词频统计映射器
     * 作者:华卫
     * 日期:2025年12月03日
     */
    public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // 获取行文本
            String line = value.toString();
            // 按空格拆分成单词数组
            String[] words = line.split(" ");
            // 遍历单词数组,生成输出键值对
            for (String word : words) {
                context.write(new Text(word), new IntWritable(1));
            }
        }
    }
    
  • 代码说明:该代码定义了一个 Hadoop MapReduce 的 Mapper 类,用于词频统计。它将输入的每行文本按空格拆分为单词,对每个单词输出键值对(单词, 1),供后续 Reduce 阶段累加计数。继承自 Mapper<LongWritable, Text, Text, IntWritable>,符合 WordCount 任务规范。

14.2.5 创建词频统计归并器类

  • net.huawei.mr包里创建WordCountReducer
    在这里插入图片描述

    package net.huawei.mr;
    
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.NullWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Reducer;
    
    import java.io.IOException;
    
    /**
     * 功能:词频统计归并器类
     * 作者:华卫
     * 日期:2025年12月03日
     */
    public class WordCountReducer extends Reducer<Text, IntWritable, Text, NullWritable> {
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context)
                throws IOException, InterruptedException {
            // 定义键(单词)出现次数
            int count = 0;
            // 遍历值迭代器,累加次数
            for (IntWritable value : values) {
                count = count + value.get();
            }
            // 生成新的输出键
            String newKey = "(" + key.toString() + "," + count + ")";
            // 输出新的键值对(newKey, null)
            context.write(new Text(newKey), NullWritable.get());
        }
    }	
    
  • 代码说明:该代码实现 Hadoop MapReduce 的 Reducer 类,用于词频统计。它接收相同单词的所有计数(值为1的 IntWritable),累加得到总频次,并将结果格式化为 “(单词,次数)” 字符串作为新键输出,值设为 NullWritable,适用于仅需输出统计结果的场景。

14.2.6 创建词频统计驱动器类

  • net.huawei.mr包里创建WordCountDriver
    在这里插入图片描述

    package net.huawei.mr;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.FSDataInputStream;
    import org.apache.hadoop.fs.FileStatus;
    import org.apache.hadoop.fs.FileSystem;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.IOUtils;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.NullWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    
    import java.net.URI;
    
    /**
     * 功能:词频统计驱动器
     * 作者:华卫
     * 日期:2025年12月03日
     */
    public class WordCountDriver {
        public static void main(String[] args) throws Exception {
            // 创建配置对象
            Configuration conf = new Configuration();
            // 设置客户端使用数据节点主机名属性
            conf.set("dfs.client.use.datanode.hostname", "true");
    
            // 获取工作实例
            Job job = Job.getInstance(conf);
            // 设置作业启动类
            job.setJarByClass(WordCountDriver.class);
    
            // 设置Mapper类
            job.setMapperClass(WordCountMapper.class);
            // 设置map任务输出键类型
            job.setMapOutputKeyClass(Text.class);
            // 设置map任务输出值类型
            job.setMapOutputValueClass(IntWritable.class);
    
            // 设置Reducer类
            job.setReducerClass(WordCountReducer.class);
            // 设置reduce任务输出键类型
            job.setOutputKeyClass(Text.class);
            // 设置reduce任务输出值类型
            job.setOutputValueClass(NullWritable.class);
    
            // 定义uri字符串(分布式文件系统前缀)
            String uri = "hdfs://bigdata1:9000";
    
            // 创建输入路径(可以指向目录,也可以指向文件)
            Path inputPath = new Path(uri + "/wordcount/input");
            // 创建输出路径
            Path outputPath = new Path(uri + "/wordcount/output");
    
            // 获取文件系统
            FileSystem fs = FileSystem.get(new URI(uri), conf);
            // 删除输出路径(第2个参数设置是否递归删除)
            fs.delete(outputPath, true);
    
            // 给作业添加输入路径(允许多个)
            FileInputFormat.addInputPath(job, inputPath);
            // 给作业设置输出路径(只能一个)
            FileOutputFormat.setOutputPath(job, outputPath);
    
            // 等待作业完成
            job.waitForCompletion(true);
    
            // 输出统计结果
            System.out.println("======统计结果======");
            // 获取输出路径的文件状态数组
            FileStatus[] fileStatuses = fs.listStatus(outputPath);
            // 遍历文件状态数组
            for (int i = 1; i < fileStatuses.length; i++) {
                // 输出结果文件路径
                System.out.println(fileStatuses[i].getPath());
                // 获取文件系统字节输入流
                FSDataInputStream in = fs.open(fileStatuses[i].getPath());
                // 将结果文件显示在控制台
                IOUtils.copyBytes(in, System.out, 4096, false);
            }
        }
    }
    
  • 代码说明:该驱动类配置并提交 Hadoop 词频统计作业:设置 Mapper 和 Reducer 类及其输入输出类型,指定 HDFS 输入/输出路径,自动删除已有输出目录,作业完成后读取并打印结果文件内容到控制台。

14.2.7 运行程序,查看结果

  • 运行词频统计驱动器类
    在这里插入图片描述

14.3 利用Hive实现词频统计

  • 执行命令:hive,进入Hive客户端
    在这里插入图片描述

14.3.1 基于HDFS文件创建外部表

  • 执行语句:create external table t_word(line string) location '/wordcount/input';
    在这里插入图片描述

14.3.2 展开每行单词

  • 执行语句:select explode(split(line, ' ')) as word from t_word;
    在这里插入图片描述

14.3.3 基于查询结果创建视图

  • 执行语句:create view v_word as select explode(split(line, ' ')) as word from t_word; 在这里插入图片描述

14.3.4 基于视图分组统计

  • 不排序统计,执行语句:select word, count(*) from v_word group by word;
    在这里插入图片描述
  • 按词频排序统计,执行语句:select word, count(*) as count from v_word group by word order by count desc;
    在这里插入图片描述
    在这里插入图片描述

14.4 利用Spark实现词频统计

  • 执行命令:spark-shell
    在这里插入图片描述

14.4.1 利用Spark RDD实现词频统计

  • 执行代码

    sc.textFile("hdfs://bigdata1:9000/wordcount/input/words.txt")
      .flatMap(_.split(" "))
      .map((_, 1))
      .reduceByKey(_ + _)
      .sortBy(_._2, false)
      .collect()
      .foreach(println)
    

    在这里插入图片描述

14.4.2 利用Spark SQL实现词频统计

  1. 读取文本文件生成数据帧

    • 执行命令:val df = spark.read.text("hdfs://bigdata1:9000/wordcount/input/words.txt")
      在这里插入图片描述

    • 执行命令:df.show()
      在这里插入图片描述

  2. 基于数据帧生成临时视图

    • 执行命令:df.createOrReplaceTempView("t_value")
      在这里插入图片描述
  3. 对临时视图进行词频统计

    • 执行代码

      val wc = spark.sql("""
          select word, count(*) as count
             from (select explode(split(value, " ")) as word from t_value)
             group by word
             order by count desc
      """)
      

      在这里插入图片描述

    • 执行命令:wc.show()
      在这里插入图片描述

15. 关闭大数据集群服务

  • 在云主机bigdata1上,执行命令:allstop.sh
    在这里插入图片描述

16. 实战小结

  • 通过本次实战,我们完整地搭建并运行了一个基于Hadoop、Hive和Spark的大数据集群环境。从网络和云主机的创建、配置,到集群服务的启动与管理,再到利用MapReduce、Hive和Spark实现词频统计任务,全面掌握了大数据平台的搭建与应用开发流程。在实战中,我们成功实现了数据的分布式存储与处理,验证了不同技术框架在数据处理中的优势和适用场景。通过FinalShell远程连接和配置文件修改,进一步增强了对集群管理的理解。整个过程不仅提升了技术操作能力,还加深了对大数据生态系统各组件协同工作的认识,为后续更复杂的大数据项目积累了宝贵经验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

酒城译痴无心剑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值