从零到一spark进阶之路（三） pyspark 处理movies数据集(整理ING6-20)

本文链接：https://blog.youkuaiyun.com/HHTNAN/article/details/80745221

本文介绍了PySpark的基础概念及其作为Python编程接口在Spark中的应用。通过处理MovieLens数据集，展示了如何利用PySpark进行数据处理及图形分析，具体分析了用户年龄分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PySpark简介

官方对PySpark的释义为：“PySpark is the Python API for Spark”。也就是说pyspark为Spark提供的Python编程接口。
Spark使用py4j来实现python与java的互操作，从而实现使用python编写Spark程序。Spark也同样提供了pyspark，一个Spark的python shell，可以以交互式的方式使用Python编写Spark程序。

处理movies数据集

下面我通过PySpark对真实的数据集进行处理，并作图形来分析。首先我需要介绍下数据集以及数据处理的环境。

数据概况

MovieLens数据集是由Minnesota大学的GroupLens Research Project对电影评分网站(movielens.umn.edu)收集的，数据集包含了1997年9月19日到1998年四月22日间共七个月的数据。这些数据已经被处理过了（清除了那些评分次数少于20次以及信息没有填写完整的数据）

MovieLens数据集：

MovieLens数据集，用户对自己看过的电影进行评分，分值为1～5。MovieLens包括两个不同大小的库，适用于不同规模的算法．小规模的库是943个独立用户对1682部电影作的10000次评分的数据（我是用这个小规模作数据处理和分析）；通过对数据集分析，为用户预测他对其他未观看的电影的打分，将预测分值高的电影推荐给用户，认为这些电影是用户下一步感兴趣的电影。

数据集结构：

1、943个用户对1682场电影评分，评判次数为100000次，评分标准：1~5分。
2、每位用户至少评判20场电影。
3、简单地统计了用户的一些信息 (age, gender, occupation, zip)

数据用途：

供科研单位和研发企业使用，可用于数据挖掘、推荐系统，人工智能等领域，复杂网络研究等领域。