2026763335-优快云博客

原创 Hive实战：网址去重

在本次实战任务中，我们利用Hive大数据处理框架对三个文本文件（ips01.txt、ips02.txt、ips03.txt）中的IP地址进行了整合与去重。首先，在虚拟机上创建了这三个文本文件，并将它们上传至HDFS的目录下作为原始数据源。接着，启动了Hive Metastore服务和客户端，以管理和访问元数据信息。通过Hive SQL语句创建了一个外部表ips，该表的每一行存储一个IP地址，字段间采用换行符\n进行分隔，这样便能正确读取到HDFS上的原始IP列表数据。

2024-01-09 09:13:58 1003

原创 MR实战：网址去重

本实战项目主要利用Hadoop MapReduce框架对多个文本文件中的IP地址进行整合并去除重复项。首先，在虚拟机上创建了三个包含IP地址列表的文本文件（ips01.txt、ips02.txt、ips03.txt），并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。接着，通过IntelliJ IDEA创建了一个Maven项目MRDeduplicateIPs，并添加了hadoop-client和junit相关依赖。

2024-01-09 08:55:18 921

原创 MR实战：分科汇总求月考平均分

在这个实战中，我们使用了Hive框架来处理学生的月考成绩数据。首先，我们准备了三个文本文件，分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着，我们启动了服务，并通过Hive客户端连接到Hive。在Hive中，我们创建了一个分区表，用于存储学生的成绩数据，其中分区字段为科目（subject）。然后，我们按照科目将数据加载到分区表中，分别加载了语文、数学和英语的成绩数据。通过这样的分区方式，我们能够更方便地对数据进行查询和分析。

2024-01-08 11:57:46 957

原创 Hive实战：分科汇总求月考平均分

在这个实战中，我们使用了Hive框架来处理学生的月考成绩数据。首先，我们准备了三个文本文件，分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着，我们启动了服务，并通过Hive客户端连接到Hive。在Hive中，我们创建了一个分区表，用于存储学生的成绩数据，其中分区字段为科目（subject然后，我们按照科目将数据加载到分区表中，分别加载了语文、数学和英语的成绩数据。通过这样的分区方式，我们能够更方便地对数据进行查询和分析。

2024-01-08 09:16:55 1125

原创 Hive实战：词频统计

在本次实战中，我们任务是在大数据环境下使用Hive进行词频统计。首先，我们在master虚拟机上创建了一个名为test.txt的文本文件，内容包含一些关键词的句子。接着，我们将该文本文件上传到HDFS的目录，作为数据源。随后，我们启动了服务和Hive客户端，为数据处理做准备。在Hive客户端中，我们创建了一个名为t_word的外部表，该表的结构包含一个字符串类型的word字段，并将其位置设置为HDFS中的目录。这样，Hive就可以直接读取和处理HDFS中的文本数据。

2023-12-29 23:37:20 1088 1

原创 MR实战：学生信息排序

在信息爆炸的时代，数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型，以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程，我们将通过一个具体的任务——学生信息排序，深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤，再到拓展练习，我们将一起领略MapReduce的强大魅力，揭示其在大数据处理中的关键作用。本教程将通过实现学生信息排序任务。首先，启动Hadoop服务，创建目录和包含学生信息的文件，然后将其上传到HDFS的目录。接着，创建。

2023-12-29 17:25:30 1009 1

原创 MR实战：统计总分与平均分

我们将演示如何使用Apache Hadoop的MapReduce框架计算学生总分和平均分。针对包含姓名和六门科目成绩的五条记录数据，我们将在Hadoop上进行以下步骤：启动服务，准备数据（创建score.txt文件并上传到HDFS的/calcscore/input目录）；实现MapReduce过程，包括创建Maven项目、添加依赖、配置日志、编写ScoreMapper和ScoreReducer类，以及设置作业的ScoreDriver类。在ScoreMapper中，我们将每行数据拆分为姓名和科目成绩的键值对。

2023-12-29 11:59:07 899 1

m0_75008603的博客

原创 Hive实战：网址去重

原创 MR实战：网址去重

原创 MR实战：分科汇总求月考平均分

原创 Hive实战：分科汇总求月考平均分

原创 Hive实战：词频统计

原创 MR实战：学生信息排序

原创 MR实战：统计总分与平均分

原创 Java Web应用小案例 - 实现用户登录功能

原创 HDFS Java API基本操作实验

原创新学期的第一篇博客

空空如也

空空如也