- 博客(13)
- 收藏
- 关注
原创 HIVE:分科求平均分
在这个实战中,我们使用了Hive框架来处理学生的月考成绩数据。首先,我们准备了三个文本文件,分别包含了语文、数学和英语的月考成绩数据。这些数据被上传到HDFS的指定目录。接着,我们启动了Hive Metastore服务,并通过Hive客户端连接到Hive。在Hive中,我们创建了一个分区表student_score,用于存储学生的成绩数据,其中分区字段为科目(subject)。然后,我们按照科目将数据加载到分区表中,分别加载了语文、数学和英语的成绩数据。
2024-01-09 11:07:52
1109
原创 MR实战:词频统计
本实战演练旨在利用Hadoop MapReduce框架在虚拟环境中执行一个简单的词频统计任务。首先,在master节点上创建了一个包含多个单词行的文本文件words.txt,并将该文件上传至HDFS中的指定目录/wordcount/input。在集成开发环境IntelliJ IDEA中,我们创建了一个名为MRWordCount的Maven项目,并引入了Apache Hadoop 3.3.4版本的客户端依赖和JUnit测试框架。
2024-01-09 08:25:12
1466
原创 MR实战:信息去重
本次实战任务目标是使用Hadoop MapReduce技术对两个包含重复数据的文本文件file1.txt和file2.txt进行去重操作,并将结果汇总到一个文件。首先启动Hadoop服务,然后在虚拟机上创建这两个文本文件并上传到HDFS的/dedup/input目录。在Map阶段,我们创建自定义Mapper类DeduplicateMapper,将TextInputFormat默认组件解析的键值对修改为需要去重的数据作为key,value设为空。
2024-01-08 17:39:18
1362
原创 MR实战:分科求平均分
在本次实战中,我们将利用Hadoop MapReduce处理学生月考成绩数据,目标是计算每个同学语文、数学和英语的平均分。通过启动Hadoop服务、准备数据、创建Maven项目以及实现Mapper、Reducer和Driver类,我们将深入实践大数据处理流程。此任务将帮助我们理解MapReduce的工作原理,并提升大数据分析能力。一起来探索分布式计算的力量,揭示隐藏在海量数据中的学习表现趋势。
2024-01-08 17:32:36
846
原创 MR实战:学生信息排序
一、实战概述在信息爆炸的时代,数据处理与分析的重要性日益凸显。MapReduce作为一种强大的分布式计算模型,以其高效并行处理能力解决了大规模数据集的处理难题。本次实践教程,我们将通过一个具体的任务——学生信息排序,深入浅出地引导大家掌握MapReduce的基本原理和应用。从数据准备到实现步骤,再到拓展练习,我们将一起领略MapReduce的强大魅力,揭示其在大数据处理中的关键作用。本教程将通过Hadoop MapReduce实现学生信息排序任务。
2024-01-08 11:24:07
861
原创 MapReduce实战:统计总分与平均分
在本次实战中,我们将利用Apache Hadoop的MapReduce框架来计算一个包含五名学生五门科目成绩的数据集的总分和平均分。我们将通过以下步骤实现这一目标:首先,在虚拟机上创建并准备数据,将成绩表以文本文件形式存储并在HDFS上设定输入目录;然后,使用IntelliJ IDEA创建Maven项目,并添加必要的Hadoop和JUnit依赖;接着,我们将实现ScoreMapper和ScoreReducer类,分别负责处理输入数据和计算总分与平均分;
2024-01-08 11:04:01
2001
原创 Hive实战:实现数据去重
在本次实战任务中,我们利用Hive大数据处理框架对三个文本文件(ips01.txt、ips02.txt、ips03.txt)中的IP地址进行了整合与去重。首先,在虚拟机上创建了这三个文本文件,并将它们上传至HDFS的/deduplicate/input目录下作为原始数据源。接着,启动了Hive Metastore服务和客户端,以管理和访问元数据信息。
2024-01-08 10:45:14
983
原创 Hive实战:学生信息排序
本次实战以Apache Hive数据仓库工具为核心,通过处理存储在HDFS上的学生信息表实现数据排序操作。首先,创建并上传包含8条记录的学生表数据至HDFS的指定目录,每条记录由姓名、性别、年龄、手机和专业五个字段组成。随后,启动Hive Metastore服务与客户端,并基于HDFS上的文本文件建立了一个外部表t_student。在实战任务中,主要运用Hive SQL进行数据查询与排序。首先展示了如何按年龄降序排列学生信息,直观展示了Hive对大规模结构化数据的强大处理能力。
2024-01-08 10:36:01
392
原创 Hive实战:词频统计
在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的/hivewc/input目录,作为数据源。随后,我们启动了Hive Metastore服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们创建了一个名为t_word的外部表,该表的结构包含一个字符串类型的word字段,并将其位置设置为HDFS中的/hivewc/input目录。
2024-01-08 09:40:29
1284
原创 Hive实战:计算总分与平均分
本次实战主要聚焦于使用Hive框架对成绩数据进行处理和分析。任务目标是基于一个包含六个字段(姓名、语文、数学、英语、物理、化学)的成绩表,计算每个学生的总分和平均分。首先,我们在虚拟机上创建了一个名为score.txt的文本文件,其中包含了五名学生的成绩记录。然后,我们将该文件上传到HDFS的指定目录/hivescore/input中。接下来,我们启动了Hive Metastore服务,并通过执行命令行启动了Hive客户端。
2024-01-08 09:28:55
1071
原创 HDFS Java API 基本操作实验
然后,各个测试方法分别实现了上述的基本功能,如testUpload()用于从本地上传文件到HDFS,testReadFile()用于从HDFS读取文件内容并输出到控制台,testDownload()用于从HDFS下载文件到本地。同时,由于采用了Hadoop的HDFS API和IOUtils工具类,使得程序可以方便地在Hadoop集群上运行,实现对HDFS文件的高效操作。详细说明: 这是Hadoop的核心库,包含了许多通用的类和工具,用于支持Hadoop分布式文件系统(HDFS)和分布式计算。
2024-01-08 09:17:56
752
原创 在Linux上安装jdk 、 mysql、Tomcat
接下来继续执行命令,修改配置文件,下面两个命令都要执行,然后会打开一个文件,把文件里面内容删光,照我的内容复制粘贴上去。这句话的意思是将root用户的密码设置为root,出现Query OK就是修改成功了。登录命令要是不会不建议学习了 然后要输入密码,就是刚才初始化时的密码。成功后我们就要修改mysql密码了,初始化时候有一个密码,用他先登录mysql。解压过后我们输入ls去查看是否解压成功,有一个蓝色的这个就代表解压成功了。用exit退出mysql,然后用新密码登录,登录成功就大功告成了。
2023-10-13 09:32:36
59
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人