Hive | 基于Python预处理、用Hive对movielens数据集进行分析

本文介绍了如何使用Hive结合Python脚本对movielens数据集进行预处理,包括创建HQL新表,利用Python脚本转换时间格式,并进行数据分析,揭示周六的观影人数最多。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

熟悉Hive的小伙伴都知道,企业中对Hive进行数据预处理ETL,最多的是用UDF和Python脚本。本文主要是实践在Hive中使用Python脚本进行数据清洗。数据集来源:http://files.grouplens.org/datasets/movielens/

当然,下面的分析内容如果用spark,一句就搞定了。

需求分析

ml-100k中的数据有四个字段,分别对应:userId(用户id),movieId(电影id),rate(评分),time(观影时间),前几条数据预览如下图。
在这里插入图片描述
预览过数据后,发现第四个字段,即time的格式不是我们日常所见的格式,不利于我们做数据分析。所以有必要对它进行数据预处理。

原始表创建和导入数据

  • 在Linux上下载数据包:wget http://files.grouplens.org/datasets/movielens/ml-100k.zip
  • 使用unzip解压数据包:unzip ml-100k.zip
  • hql操作
    CREATE TABLE if not exists u_data(
    userid 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值