bert系列模型继续预训练(Pytorch)

AI驿站

于 2021-04-14 13:17:26 发布

阅读量3.3k

点赞数 4

分类专栏： nlp 文章标签： pytorch 预训练脱敏数据 nezha bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/daniellibin/article/details/115696172

版权

nlp 专栏收录该内容

7 篇文章

订阅专栏

本文探讨了在数据脱敏场景下提升预训练模型性能的两种方法。第一种利用transformer中的Trainer，调整词表大小并自定义mask策略。第二种采用开源工具，通过预处理脚本生成mask数据，然后进行预训练。对于xlnet、albert等模型，只需修改mask格式即可适配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、前言

在数据脱敏比赛或者某些垂类领域中，使用该领域的文本继续预训练，往往可以取得一个更好的结果。这篇文章主要讲我目前使用过的两种预训练方法。

2、两种训练框架

（1）采用transformer中Trainer

可根据实际情况，通过 model.resize_token_embeddings(len(tokenizer)) 重新定义词表的大小。

输入data格式为：以每行一个文本为单位进行mask，具体mask策略在DataCollatorForLanguageModeling中，可根据需要自行修改。

（2）采用涂涂乐大佬开源的方法

首先使用prepare_lm_data_mask.py生成mask数据，具体mask策略可在这进行更改；
输入data格式为：一行一个句子,同一文章的句子用’\n’分割；不同文章之前用’\n\n’分隔（即空一行）。

然后使用run_pretraining.py继续预训练即可。

3.总结

如果预训练xlnet、albert等系列模型，只需要修改对应的mask格式，将***ForMaskedLM换成对应的模型即可（transormers中基本都有，nezha模型可参考github ）。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。