Hadoop实现数据清洗ETL

本文介绍了使用Hadoop进行数据清洗的ETL过程。首先,文章讲解了数据的结构,包括视频ID、上传者、类别等字段,特别指出类别以&分隔,而相关电影ID以tab分隔,部分数据缺失。接着,提到了开发环境为IDEA、Maven和Hadoop。随后,展示了Mapper代码和ETL工具类,通过测试验证了代码能按要求完成任务。最后,提到将打包后的jar文件部署到Hadoop集群上运行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

准备

LKh7zAJ4nwo	TheReceptionist	653	Entertainment	424	13021	4.34	1305	744	DjdA-5oKYFQ	NxTDlnOuybo	c-8VuICzXtU	DH56yrIO5nI	W1Uo5DQTtzc	E-3zXq_r4w0	1TCeoRPg5dE	yAr26YhuYNY	2ZgXx72XmoE	-7ClGo-YgZ0	vmdPOOd6cxI	KRHfMQqSHpk	pIMpORZthYw	1tUDzOp10pk	heqocRij5P0	_XIuvoH6rUg	LGVU5DsezE0	uO2kj6_D8B4	xiDqywcDQRM	uX81lMev6_o

这是一行我们准备清洗的数据,它的每个数据的意思是(依次)
视频唯一id 视频上传者 视频年龄 视频类别 视频长度 观看次数 视频评分 流量 评论数 相关视频id
要注意的是:

  1. 视频类别:可能有多个分类,中间要以&分割,但是在有的数据中会以如下形式显示
People & Blogs   & 中间有空格,我们要处理掉它
  1. 相关电影id是以tab(" \t ")分割的,我们要将他换为空格
  2. 有的电影没有相关电影,我们要将这些数据过滤掉

了解需求后,我们开始做!

环境

IDEA + Maven +hadoop

相关依赖

<dependencies>
        <dependency>
            <groupId>junit</groupId>
       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值