
大数据实战
文章平均质量分 86
诗彺
这个作者很懒,什么都没留下…
展开
-
Hive实战:网址去重
本实战项目主要利用Hive对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txtips02.txtips03.txt),并将这些文件上传至HDFS上的目录作为原始数据。接着在hive中创建相对应的数据表ips,并将HDFS中三个文本文件内容导入到数据表ips中最后通过查询实现去重。原创 2024-01-09 10:25:29 · 435 阅读 · 0 评论 -
MR实战:网址去重
本实战项目主要利用框架对多个文本文件中的IP地址进行整合并去除重复项。首先,在虚拟机上创建了三个包含IP地址列表的文本文件(ips01.txtips02.txtips03.txt),并将这些文件上传至HDFS上的/deduplicate/input目录作为原始数据。接着,通过创建了一个Maven项目,并添加了和junit相关依赖。和。类作为Map阶段的处理单元,读取每行输入文本数据(表示一个IP地址),将IP地址作为新的键输出,并使用类型的空值,以准备后续去重操作。类则负责Reduce阶段的逻辑,它接收。原创 2024-01-09 09:37:33 · 803 阅读 · 0 评论 -
MR实战:统计总分与平均分
求成绩总分和平均分、将数据上传到hdfs原创 2024-01-08 11:24:09 · 1238 阅读 · 0 评论 -
Hive实战:分科汇总求月考平均分
上传数据到hdfs、从hdfs加载数据到hive原创 2024-01-08 10:18:50 · 1405 阅读 · 0 评论 -
Hive实战:成绩汇总
hive文件上传到hdfs,hive统计成绩求和,统计平均值原创 2024-01-03 11:10:48 · 458 阅读 · 1 评论 -
hive实战:词频统计
词频统计、hive文件上传到hdfs、hive导入外部数据原创 2024-01-08 09:20:53 · 1224 阅读 · 0 评论 -
MR实战学生信息排序
数据上传到hdfs,数据排序原创 2024-01-03 17:59:48 · 824 阅读 · 1 评论