自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Hive实战:计算总分与平均分

本次实战以Hive为核心,针对学生成绩数据进行统计分析。首先,在虚拟机中创建score.txt文件存储五名学生的成绩记录,并上传至HDFS的路径下。接着启动Hive Metastore服务和客户端,创建与成绩表结构对应的内部表t_score,并运用load data命令将HDFS数据导入该表。最后,通过编写SQL语句按学生姓名分组,对各科成绩求和计算总分、平均分。此过程充分展示了Hive在大数据处理中的高效性及便利性,只需简单SQL即可实现复杂的数据统计任务,为深入数据分析实践提供了有力支持。

2024-01-09 10:02:43 1313

原创 MR实战:去掉重复IP地址

本实战项目主要利用Hadoop MapReduce框架对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txt、ips02.txt、ips03.txt),并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。接着,通过IntelliJ IDEA创建了一个Maven项目MRDeduplicateIPs,并添加了hadoop-client和junit相关依赖。

2024-01-08 18:32:24 937

原创 MR实战:词频统计

本实战演练旨在利用Hadoop MapReduce框架,在虚拟环境中执行一个简单的词频统计任务。在master节点上创建一个文本文件words.txt,其中包含多个单词行,并将该文件上传至HDFS中的指定目录/wordcount/input。在集成开发环境IntelliJ IDEA中创建一个名为MRWordCount的Maven项目,并引入Apache Hadoop 3.3.4版本的客户端依赖和JUnit测试框架。

2024-01-08 18:25:24 1116

原创 MR实战:统计总分与平均分

在本次实战中,我们将利用Apache Hadoop的MapReduce框架来计算一个包含五名学生五门科目成绩的数据集的总分和平均分。我们将通过以下步骤实现这一目标:首先,在虚拟机上创建并准备数据,将成绩表以文本文件形式存储并在HDFS上设定输入目录;然后,使用IntelliJ IDEA创建Maven项目,并添加必要的Hadoop和JUnit依赖;接着,我们将实现ScoreMapper和ScoreReducer类,分别负责处理输入数据和计算总分与平均分;

2024-01-08 17:47:27 849

原创 MR实战:学生信息排序

首先启动Hadoop集群,新建目录并上传包含学生信息的至HDFS的路径。接着,在Maven项目中添加Hadoop相关依赖及JUnit测试框架,并配置日志属性文件。在包下创建Student类,实现序列化接口,并通过重写方法设定性别升序、年龄降序的排序规则。然后编写和以处理及聚合数据。在中设置Job配置并提交执行。在拓展练习中,进一步修改Student类的比较逻辑以满足新的排序需求,完成后再运行以验证最终排序结果。

2024-01-08 16:53:36 785

原创 MR实战:分科汇总求月考平均分

在本次实战中,我们将利用Hadoop MapReduce处理学生月考成绩数据,目标是计算每个同学语文、数学和英语的平均分。通过启动Hadoop服务、准备数据、创建Maven项目以及实现Mapper、Reducer和Driver类,我们将深入实践大数据处理流程。此任务将帮助我们理解MapReduce的工作原理,并提升大数据分析能力。一起来探索分布式计算的力量,揭示隐藏在海量数据中的学习表现趋势。我们首先启动Hadoop服务,并在虚拟机上创建包含语文、数学、英语成绩的文本文件math.txt和。

2024-01-08 11:57:12 1310

原创 Hive实战:分科汇总求月考平均分

本次实战利用Hive处理学生月考成绩数据,首先将分散在不同文本文件的语文、数学和英语成绩上传至HDFS。启动Hive Metastore服务后,在Hive中创建了分区表,以科目为分区字段进行数据组织。接着,通过Hive的数据加载功能,将各科成绩分别载入到对应分区。最后,运用SQL查询统计每个学生的三科平均分,并进行了结果的格式化输出。整个过程涵盖了Hive的表结构设计、分区管理、数据导入及复杂查询等核心功能,充分体现了Hive在大数据分析与查询中的高效性与便利性。

2024-01-08 09:14:13 902

原创 Hive实战:学生信息排序

学生表,包含五个字段(姓名、性别、年龄、手机、专业),有8条记录|姓名|性别|年龄|手机|专业||李文丽|女|19|15892943440|大数据应用||张三丰|男|20|15890903456|人工智能应用||郑晓琳|女|18|18867890234|软件技术||唐宇航|男|22|15856577890|计算机应用||陈燕文|女|21|13956576783|软件技术||童安格|男|19|15889667890|大数据应用|

2024-01-04 15:49:22 428 1

原创 Hive实战:实现数据去重

在本次实战任务中,我们利用Hive处理大数据场景,针对三个文本文件中的IP地址数据进行整合与去重。首先将文本文件上传至HDFS的指定目录作为输入源,随后通过启动Hive服务搭建元数据管理环境。创建了外部表unique_ips以加载并列存储文本数据中的IP地址,每行一个IP且用换行符分隔。为达到去重目的,进一步创建内部表,并运用DISTINCT关键词从unique_ips中筛选出不重复IP记录。最后,通过查询表验证去重结果的有效性。

2024-01-04 15:37:16 1131 1

原创 Hive实战:词频统计

在大数据实战中,我们利用Hive对存储在HDFS的文本数据进行词频统计。首先,我们在master虚拟机创建test.txt文件,并将其上传至HDFS的/hivewc/input目录作为输入源。随后启动Hive Metastore服务和客户端,创建名为t_word的外部表映射至该HDFS路径,使Hive能够直接访问并解析文本内容。为实现词频统计,精心编写了Hive SQL语句,运用explode和split函数将句子拆分单词,并通过子查询配合GROUP BY进行单词计数。

2024-01-04 14:59:52 1770 1

原创 HDFS Java API 基本操作实验

文章目录。

2023-12-08 11:53:03 664

原创 新学期第一篇博客

自我介绍,让大家更好的了解我。

2023-09-05 16:09:47 62

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除