代码预训练与分词器构建全解析
1. 数据集准备与远程加载
在开始构建模型之前,我们需要对数据集进行完善和处理。首先,应该添加 README 卡片,详细解释两个数据集的创建方式,并尽可能提供更多有用信息。一个文档完善的数据集对他人和未来的自己都更有价值,而且可以直接在 Hub 上修改 README。
当数据集上线后,我们可以在任何地方下载或流式传输示例。以下是具体的代码实现:
remote_dataset = load_dataset(
"transformersbook/codeparrot", split="train", streaming=True)
iterator_remote = iter(remote_dataset)
first_element_remote_dataset = next(iterator_remote)
second_element_remote_dataset = next(iterator_remote)
print({k: v[:50] for k, v in
first_element_remote_dataset.items()})
print({k: v[:50] for k, v in
second_element_remote_dataset.items()})
运行结果示例如下:
{'repo_name': 'ahmedbodi/AutobahnPython', 'path': 'examples/asyncio/websocket/echo/client_coroutine
超级会员免费看
订阅专栏 解锁全文
764

被折叠的 条评论
为什么被折叠?



