Hive | 基于Python预处理、用Hive对movielens数据集进行分析

最新推荐文章于 2024-03-12 18:09:57 发布

pomelorange

最新推荐文章于 2024-03-12 18:09:57 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Hadoop系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/whisky_12/article/details/103639286

本文介绍了如何使用Hive结合Python脚本对movielens数据集进行预处理，包括创建HQL新表，利用Python脚本转换时间格式，并进行数据分析，揭示周六的观影人数最多。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

熟悉Hive的小伙伴都知道，企业中对Hive进行数据预处理ETL，最多的是用UDF和Python脚本。本文主要是实践在Hive中使用Python脚本进行数据清洗。数据集来源：http://files.grouplens.org/datasets/movielens/

当然，下面的分析内容如果用spark，一句就搞定了。

需求分析

ml-100k中的数据有四个字段，分别对应：userId（用户id），movieId（电影id），rate（评分），time（观影时间），前几条数据预览如下图。
在这里插入图片描述
预览过数据后，发现第四个字段，即time的格式不是我们日常所见的格式，不利于我们做数据分析。所以有必要对它进行数据预处理。

原始表创建和导入数据

在Linux上下载数据包：wget http://files.grouplens.org/datasets/movielens/ml-100k.zip
使用unzip解压数据包：unzip ml-100k.zip

hql操作

CREATE TABLE if not exists u_data(
userid

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。