dataset module 定义了Dataset及其子类,用于管理数据集。用户可以使用内置的数据集和自己定义的数据集两种,内置的数据集包括:
- The movielens-100k dataset.
- The movielens-1m dataset.
- The Jester dataset 2.
如果数据已经下载之后,可以通过Dataset.load_builtin()方法加载,未下载的会会提示是否下载。加载方法总结如下:
| Dataset.load_builtin | 加载内置数据集 |
| Dataset.load_from_file | 从用户文件加载数据文件 |
| Dataset.load_from_folds |
从一些文件加载多份数据(用于交叉验证) |
| Dataset.folds |
产生可以在每份数据集上执行的生成器 |
| DatasetAutoFolds.split | 切分数据集成为几份,用于交叉验证 |
- class
surprise.dataset.Dataset(reader)
加载数据的类方法,注意不用直接实例化,其子类也不用直接实例化,用如下3个方法加载数据集:
- folds():产生在每一份数据集切分子集上迭代的生成器函数,Yields:当前数据子集的元组
注意:1.05版本之后用

scikit-surprise的dataset模块提供Dataset类及其子类,用于管理和操作推荐系统数据集。内置数据集包括movielens-100k、movielens-1m和Jester 2。用户可以通过多种方式加载数据,如直接使用pandas DataFrame、文件路径或已分好的折叠文件。此外,模块支持数据切分和交叉验证功能,可用于模型训练和评估。
最低0.47元/天 解锁文章
616

被折叠的 条评论
为什么被折叠?



