Hadoop实现数据清洗ETL

最新推荐文章于 2025-04-02 15:35:46 发布

原创

最新推荐文章于 2025-04-02 15:35:46 发布 · 8.4k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#Hadoop #ETL #数据清洗

本文介绍了使用Hadoop进行数据清洗的ETL过程。首先，文章讲解了数据的结构，包括视频ID、上传者、类别等字段，特别指出类别以&分隔，而相关电影ID以tab分隔，部分数据缺失。接着，提到了开发环境为IDEA、Maven和Hadoop。随后，展示了Mapper代码和ETL工具类，通过测试验证了代码能按要求完成任务。最后，提到将打包后的jar文件部署到Hadoop集群上运行。

准备

LKh7zAJ4nwo	TheReceptionist	653	Entertainment	424	13021	4.34	1305	744	DjdA-5oKYFQ	NxTDlnOuybo	c-8VuICzXtU	DH56yrIO5nI	W1Uo5DQTtzc	E-3zXq_r4w0	1TCeoRPg5dE	yAr26YhuYNY	2ZgXx72XmoE	-7ClGo-YgZ0	vmdPOOd6cxI	KRHfMQqSHpk	pIMpORZthYw	1tUDzOp10pk	heqocRij5P0	_XIuvoH6rUg	LGVU5DsezE0	uO2kj6_D8B4	xiDqywcDQRM	uX81lMev6_o

这是一行我们准备清洗的数据，它的每个数据的意思是（依次）
视频唯一id 视频上传者视频年龄视频类别视频长度观看次数视频评分流量评论数相关视频id
要注意的是：

视频类别：可能有多个分类，中间要以&分割，但是在有的数据中会以如下形式显示

People & Blogs   & 中间有空格，我们要处理掉它

相关电影id是以tab(" \t ")分割的，我们要将他换为空格
有的电影没有相关电影，我们要将这些数据过滤掉

了解需求后，我们开始做！

环境

IDEA + Maven +hadoop

相关依赖

<dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>RELEASE</version&g