利用Python进行数据分析笔记4

最新推荐文章于 2020-08-28 12:05:57 发布

isbndyy

最新推荐文章于 2020-08-28 12:05:57 发布

阅读量640

点赞数

CC 4.0 BY-SA版权

分类专栏： Python，数据分析文章标签： Python 数据分析

本文链接：https://blog.youkuaiyun.com/isbndyy/article/details/67634841

Python，数据分析专栏收录该内容

8 篇文章

订阅专栏

本文介绍 MovieLens1M 数据集，包含6000名用户对4000部电影的100万条评分数据。文章演示如何使用 pandas 处理数据，并根据性别和年龄计算电影平均得分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MovieLens 1M数据集

GroupLens Research采集了一组从20世纪90年末到21世纪初由MovieLens用户提供的电影评分数据。这些数据中包括电影评分、电影元数据（风格类型和年代）以及关于用户的人口统计学数据（年龄、邮编、性别和职业等）。基于机器学习算法的推荐系统一般都会对此类数据感兴趣。

MovieLens 1M数据集含有来自6000名用户对4000部电影的100万条评分数据。它分为三个表：评分、用户信息和电影信息。将该数据从zip文件中解压出来之后，可以通过pandas.read_table将各个表分别读到一个pandas DataFrame对象中：

import pandas as pd
unames=['user_id','gender','age','occupation','zip']
users=pd.read_table('G:/python/pydata-book-master/ch02/movielens/users.dat',sep='::',header=None,names=unames)
rnames=['user_id','movie_id','rating','timestamp']
ratings=pd.read_table('G:/python/pydata-book-master/ch02/movielens/ratings.dat',sep='::',header=None,names=rnames)
mnames=['movie_id','title','genres']
movies=pd.read_table('G:/python/pydata-book-master/ch02/movielens/movies.dat',sep='::',header=None,names=mnames)

利用Python的切片语法，通过查看每个DataFrame的前几行即可验证数据加载工作是否一切顺利：

users[:5]
print ratings

Int64Index: 1000209 entries, 0 to 1000208

Data columns:

user_id 1000209 non-null values

movie_id 1000209 non-null values

rating 1000209 non-null values

timestamp 1000209 non-null values

dtypes: int64(4)

注意，其中的年龄和职业是以编码形式给出的。分析散布在三个表中的数据可不是一件轻松的事情。假设我们想要根据性别和年龄计算某部电影的平均得分，如果将所有数据合并到一个表中的话问题就简单了。可以先用pandas的merge函数将ratings跟users合并到一起，然后再将movies也合并进去。Pandas会根据列名的重叠情况推断出哪些列是合并或链接键：

data = pd.merge(pd.merge(ratings,users),movies)
print data

Int64Index: 1000209 entries, 0 to 1000208

Data columns:

user_id 1000209 non-null values

movie_id 1000209 non-null values

rating 1000209 non-null values

timestamp 1000209 non-null values

gender 1000209 non-null values

age 1000209 non-null values

occupation 1000209 non-null values

zip 1000209 non-null values

title 1000209 non-null values