scikit-surpris库之dataset module

最新推荐文章于 2023-12-01 20:00:28 发布

原创

最新推荐文章于 2023-12-01 20:00:28 发布 · 2.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#surprise #dataset #推荐系统库scikit

scikit-surprise的dataset模块提供Dataset类及其子类，用于管理和操作推荐系统数据集。内置数据集包括movielens-100k、movielens-1m和Jester 2。用户可以通过多种方式加载数据，如直接使用pandas DataFrame、文件路径或已分好的折叠文件。此外，模块支持数据切分和交叉验证功能，可用于模型训练和评估。

dataset module 定义了Dataset及其子类，用于管理数据集。用户可以使用内置的数据集和自己定义的数据集两种，内置的数据集包括：

The movielens-100k dataset.
The movielens-1m dataset.
The Jester dataset 2.

如果数据已经下载之后，可以通过Dataset.load_builtin()方法加载，未下载的会会提示是否下载。加载方法总结如下：

Dataset.load_builtin	加载内置数据集
Dataset.load_from_file	从用户文件加载数据文件
Dataset.load_from_folds	从一些文件加载多份数据（用于交叉验证）
Dataset.folds	产生可以在每份数据集上执行的生成器
DatasetAutoFolds.split	切分数据集成为几份，用于交叉验证