从头开始预训练RoBERTa模型
1. 构建KantaiBERT的前期准备
要从头开始构建KantaiBERT并在MLM示例上运行,可按以下步骤操作:
1. 打开Google Colaboratory(需要Gmail账户)。
2. 上传位于GitHub相应目录的KantaiBERT.ipynb文件。
接下来我们将逐步完成构建过程,以下是详细步骤:
1.1 加载数据集
为了训练和比较transformer,使用现成的数据集是一种客观的方法。这里选择德国哲学家伊曼努尔·康德(1724 - 1804)的作品,目的是为下游推理任务引入类似人类的逻辑和预训练推理。
可以从Project Gutenberg(https://www.gutenberg.org )下载免费电子书,也可以根据自己的需求创建自定义数据集。这里将康德的以下三本书编译成名为kant.txt的文本文件:
- 《纯粹理性批判》
- 《实践理性批判》
- 《道德形而上学原理》
kant.txt作为本章训练transformer模型的小数据集,结果仍处于实验阶段。对于实际项目,可以添加康德、勒内·笛卡尔、帕斯卡和莱布尼茨等人的完整作品。
数据集可以从GitHub自动下载,也可以使用Colab的文件管理器加载。使用curl从GitHub获取文件的代码如下:
#@title Step 1: Loading the Dataset
#1.Load kant.txt using the Colab file manager
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



