- 博客(10)
- 收藏
- 关注
原创 Hive实战:网址去重
在本次实战任务中,我们利用Hive大数据处理框架对三个文本文件(ips01.txt、ips02.txt、ips03.txt)中的IP地址进行了整合与去重。首先,在虚拟机上创建了这三个文本文件,并将它们上传至HDFS的目录下作为原始数据源。接着,启动了Hive Metastore服务和客户端,以管理和访问元数据信息。通过Hive SQL语句创建了一个外部表ips,该表的每一行存储一个IP地址,字段间采用换行符\n进行分隔,这样便能正确读取到HDFS上的原始IP列表数据。
2024-01-09 09:13:58
1003
原创 MR实战:网址去重
本实战项目主要利用Hadoop MapReduce框架对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txt、ips02.txt、ips03.txt),并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。接着,通过IntelliJ IDEA创建了一个Maven项目MRDeduplicateIPs,并添加了hadoop-client和junit相关依赖。
2024-01-09 08:55:18
921
原创 MR实战:分科汇总求月考平均分
在这个实战中,我们使用了Hive框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着,我们启动了服务,并通过Hive客户端连接到Hive。在Hive中,我们创建了一个分区表,用于存储学生的成绩数据,其中分区字段为科目(subject)。然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。通过这样的分区方式,我们能够更方便地对数据进行查询和分析。
2024-01-08 11:57:46
957
原创 Hive实战:分科汇总求月考平均分
在这个实战中,我们使用了Hive框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着,我们启动了服务,并通过Hive客户端连接到Hive。在Hive中,我们创建了一个分区表,用于存储学生的成绩数据,其中分区字段为科目(subject然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。通过这样的分区方式,我们能够更方便地对数据进行查询和分析。
2024-01-08 09:16:55
1125
原创 Hive实战:词频统计
在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的目录,作为数据源。随后,我们启动了服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们创建了一个名为t_word的外部表,该表的结构包含一个字符串类型的word字段,并将其位置设置为HDFS中的目录。这样,Hive就可以直接读取和处理HDFS中的文本数据。
2023-12-29 23:37:20
1088
1
原创 MR实战:学生信息排序
在信息爆炸的时代,数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型,以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程,我们将通过一个具体的任务——学生信息排序,深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤,再到拓展练习,我们将一起领略MapReduce的强大魅力,揭示其在大数据处理中的关键作用。本教程将通过实现学生信息排序任务。首先,启动Hadoop服务,创建目录和包含学生信息的文件,然后将其上传到HDFS的目录。接着,创建。
2023-12-29 17:25:30
1009
1
原创 MR实战:统计总分与平均分
我们将演示如何使用Apache Hadoop的MapReduce框架计算学生总分和平均分。针对包含姓名和六门科目成绩的五条记录数据,我们将在Hadoop上进行以下步骤:启动服务,准备数据(创建score.txt文件并上传到HDFS的/calcscore/input目录);实现MapReduce过程,包括创建Maven项目、添加依赖、配置日志、编写ScoreMapper和ScoreReducer类,以及设置作业的ScoreDriver类。在ScoreMapper中,我们将每行数据拆分为姓名和科目成绩的键值对。
2023-12-29 11:59:07
899
1
原创 Java Web应用小案例 - 实现用户登录功能
今天我们将一起学习如何使用纯JSP方式实现用户登录功能。在这个过程中,我们会通过四个主要步骤来完成这个任务:创建Web项目、创建登录页面、创建登录处理页面以及创建登录成功和失败页面。
2023-12-09 01:55:04
4869
原创 HDFS Java API基本操作实验
详细说明: 这是Hadoop的核心库,包含了许多通用的类和工具,用于支持Hadoop分布式文件系统(HDFS)和分布式计算。详细说明: Log4j是一个用于Java应用程序的灵活的日志框架,log4j-core包含了其核心的日志处理功能。详细说明: 包含Hadoop客户端的相关类,用于在应用程序中与Hadoop集群通信,提交作业等。详细说明: 包含了HDFS相关的类,用于进行文件系统的读写操作,支持分布式存储和文件管理。作用: 提供Hadoop的客户端库,支持与Hadoop集群进行交互。
2023-12-08 15:50:53
1662
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅