transformers基础组件Datasets

本文介绍了如何使用Datesets库方便地加载和处理中文数据集,包括数据集加载、按分割方式划分、数据查看、数据映射、保存与加载,以及在微调模型时的数据预处理和Dataloader的创建过程。

简介

Datesets库是一个简单易用的数据集加载库,可以方便快捷的加载数据集

基本使用

加载数据集

from datasets import *
datasets=load_dataset("madao33/new-title-chinese")
datasets
#按照数据集划分进行加载
datasets=load_dataset("madao33/new-title-chinese",split="train")
datasets
datasets=load_dataset("madao33/new-title-chinese",split="train[10:100]")
datasets=load_dataset("madao33/new-title-chinese",split="train[:50%]")
datasets=load_dataset("madao33/new-title-chinese",split=["train[10:100]","validation[20:100]")


查看数据集

datasets["train"][0]
datasets["train"][:2]
datasets["train"]["title"][0]
datasets["train"].column_names
datasets["train"].features

数据集划分

dataset=datasets["train"]
dataset.train_test_split(test_size=0.1)

dataset=datasets["train"]
dataset.train_test_split(test_size=0.1,stratify_by_column="label")

#数据选取和过滤
datasets["train"]。select([0,1])

filter_dataset=datasets["train"].filter(lambda example:"中国" in example["
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值