评分数据下载与分析:从电影推荐到行为数据局限
1. 优质评分数据获取难题
获取优质的评分数据并非易事。不过,我们可以借助一些公开数据集来开展相关实验,比如 MovieLens 数据集和 MSWeb 数据集,它们在推荐系统实验中都有出色的表现。
2. MovieLens 数据集探索
MovieLens 网站(https://movielens.org/)旨在帮助用户找到心仪的电影。用户需对已知电影进行评分,网站依据这些评分来推荐电影。该数据集可从 http://files.grouplens.org/datasets/movielens/ml - 1m.zip 获取,有多种不同规模可供选择:
| 数据集规模 | 用户数量 | 电影数量 | 评分数量 | 标签应用数量 |
| — | — | — | — | — |
| 小数据集 1 | 1,000 | 1,700 | 100,000 | - |
| 小数据集 2 | 6,000 | 4,000 | 1,000,000 | - |
| 大数据集 1 | 72,000 | 10,000 | 10,000,000 | 100,000 |
| 大数据集 2 | 138,000 | 27,000 | 20,000,000 | 465,000 |
| 最新数据集 | 230,000 | 27,000 | 21,000,000 | 470,000 |
以下是获取并解压数据集的代码:
import urllib.request
import os.path
import zi