28、数据探索:电影评分与婴儿姓名趋势分析

数据探索:电影评分与婴儿姓名趋势分析

1. 高效计算归一化总和

在数据处理中,我们可以使用 groupby 结合 transform 方法更高效地计算归一化总和。示例代码如下:

In [67]: g = count_subset.groupby("tz")
In [68]: results2 = count_subset["total"] / g["total"].transform("sum")

2. MovieLens 1M 数据集分析

2.1 数据集介绍

GroupLens Research 提供了 20 世纪 90 年代末到 21 世纪初从 MovieLens 用户收集的电影评分数据。该数据集包含电影评分、电影元数据(类型和年份)以及用户的人口统计数据(年龄、邮政编码、性别和职业),常用于基于机器学习算法的推荐系统开发。

2.2 数据加载

MovieLens 1M 数据集包含来自六千名用户对四千部电影的一百万条评分,分布在三个表中:评分表、用户信息表和电影信息表。我们可以使用 pandas.read_table 将每个表加载到 pandas DataFrame 对象中,示例代码如下:

import pandas as pd

unames = ["user_id", "gender", "age", "o
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值