数据探索:电影评分与婴儿姓名趋势分析
1. 高效计算归一化总和
在数据处理中,我们可以使用 groupby 结合 transform 方法更高效地计算归一化总和。示例代码如下:
In [67]: g = count_subset.groupby("tz")
In [68]: results2 = count_subset["total"] / g["total"].transform("sum")
2. MovieLens 1M 数据集分析
2.1 数据集介绍
GroupLens Research 提供了 20 世纪 90 年代末到 21 世纪初从 MovieLens 用户收集的电影评分数据。该数据集包含电影评分、电影元数据(类型和年份)以及用户的人口统计数据(年龄、邮政编码、性别和职业),常用于基于机器学习算法的推荐系统开发。
2.2 数据加载
MovieLens 1M 数据集包含来自六千名用户对四千部电影的一百万条评分,分布在三个表中:评分表、用户信息表和电影信息表。我们可以使用 pandas.read_table 将每个表加载到 pandas DataFrame 对象中,示例代码如下:
import pandas as pd
unames = ["user_id", "gender", "age", "o
超级会员免费看
订阅专栏 解锁全文
621

被折叠的 条评论
为什么被折叠?



