28、代码预训练与分词器构建全解析

代码预训练与分词器构建全解析

1. 数据集准备与远程加载

在开始构建模型之前,我们需要对数据集进行完善和处理。首先,应该添加 README 卡片,详细解释两个数据集的创建方式,并尽可能提供更多有用信息。一个文档完善的数据集对他人和未来的自己都更有价值,而且可以直接在 Hub 上修改 README。

当数据集上线后,我们可以在任何地方下载或流式传输示例。以下是具体的代码实现:

remote_dataset = load_dataset( 
    "transformersbook/codeparrot", split="train", streaming=True)
iterator_remote = iter(remote_dataset) 

first_element_remote_dataset = next(iterator_remote)
second_element_remote_dataset = next(iterator_remote) 

print({k: v[:50] for k, v in 
first_element_remote_dataset.items()})
print({k: v[:50] for k, v in 
second_element_remote_dataset.items()})

运行结果示例如下:

{'repo_name': 'ahmedbodi/AutobahnPython', 'path': 'examples/asyncio/websocket/echo/client_coroutine
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值