32、评分数据下载与分析:从电影推荐到行为数据局限

评分数据下载与分析:从电影推荐到行为数据局限

1. 优质评分数据获取难题

获取优质的评分数据并非易事。不过,我们可以借助一些公开数据集来开展相关实验,比如 MovieLens 数据集和 MSWeb 数据集,它们在推荐系统实验中都有出色的表现。

2. MovieLens 数据集探索

MovieLens 网站(https://movielens.org/)旨在帮助用户找到心仪的电影。用户需对已知电影进行评分,网站依据这些评分来推荐电影。该数据集可从 http://files.grouplens.org/datasets/movielens/ml - 1m.zip 获取,有多种不同规模可供选择:
| 数据集规模 | 用户数量 | 电影数量 | 评分数量 | 标签应用数量 |
| — | — | — | — | — |
| 小数据集 1 | 1,000 | 1,700 | 100,000 | - |
| 小数据集 2 | 6,000 | 4,000 | 1,000,000 | - |
| 大数据集 1 | 72,000 | 10,000 | 10,000,000 | 100,000 |
| 大数据集 2 | 138,000 | 27,000 | 20,000,000 | 465,000 |
| 最新数据集 | 230,000 | 27,000 | 21,000,000 | 470,000 |

以下是获取并解压数据集的代码:

import urllib.request
import os.path
import zi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值