1. 获取数据
MoviesLens100K数据集包含了10万条评级数据,也包含了电影元数据用户属性信息。项目实战以该公开数据集处理方式来讲解。
URL:movielens/ml-100k
- 下载后解压数据:

- 创建文件夹后,查看各数据的基本情况:

- 文件u.item文件则包含电影id、title、版本以及若干与IMDB-link电影分类有关数据。

上述数据格式如下:
本文介绍了基于SparkMllib的MoviesLens100K数据集清洗过程,涉及用户、业务和评分数据的EDA分析,数据处理转换,以及数值型、类别型数据和文本特征的处理方法。通过年龄和职业分布、电影年份统计、评分分布等实战案例展示数据清洗和预处理的全过程。
MoviesLens100K数据集包含了10万条评级数据,也包含了电影元数据用户属性信息。项目实战以该公开数据集处理方式来讲解。
URL:movielens/ml-100k




被折叠的 条评论
为什么被折叠?