简介
Datesets库是一个简单易用的数据集加载库,可以方便快捷的加载数据集
基本使用
加载数据集
from datasets import *
datasets=load_dataset("madao33/new-title-chinese")
datasets
#按照数据集划分进行加载
datasets=load_dataset("madao33/new-title-chinese",split="train")
datasets
datasets=load_dataset("madao33/new-title-chinese",split="train[10:100]")
datasets=load_dataset("madao33/new-title-chinese",split="train[:50%]")
datasets=load_dataset("madao33/new-title-chinese",split=["train[10:100]","validation[20:100]")
查看数据集
datasets["train"][0]
datasets["train"][:2]
datasets["train"]["title"][0]
datasets["train"].column_names
datasets["train"].features
数据集划分
dataset=datasets["train"]
dataset.train_test_split(test_size=0.1)
dataset=datasets["train"]
dataset.train_test_split(test_size=0.1,stratify_by_column="label")
#数据选取和过滤
datasets["train"]。select([0,1])
filter_dataset=datasets["train"].filter(lambda example:"中国" in example["

本文介绍了如何使用Datesets库方便地加载和处理中文数据集,包括数据集加载、按分割方式划分、数据查看、数据映射、保存与加载,以及在微调模型时的数据预处理和Dataloader的创建过程。
最低0.47元/天 解锁文章
276

被折叠的 条评论
为什么被折叠?



