匹配分词器与数据集:提升Transformer性能的关键策略
1. 引言
在研究Transformer模型时,我们通常关注模型架构和用于训练的数据集。然而,我们往往忽视了分词器的局限性,以及它们如何适配我们构建的模型。本文将深入探讨分词器的局限性,以及如何通过最佳实践来提升Transformer模型的性能。
2. 匹配数据集和分词器
下载基准数据集来训练Transformer有诸多优势,数据已预处理,各研究实验室使用相同参考,便于模型性能对比。但要提升Transformer性能,还需更多工作,在生产环境中应用Transformer模型需要精心规划和制定最佳实践。
3. 最佳实践
3.1 预处理
在训练模型前对数据集进行预处理,可减少训练时间。例如,Common Crawl包含通过网页提取的无标签文本,虽已去除非文本和标记,但Google T5团队发现其中很多文本未达到自然语言或英语水平,因此需对数据集进行清洗。
以下是一些预处理的标准启发式方法:
- 选择带标点的句子 :选择以句号或问号等标点结尾的句子。
- 去除不良词汇 :可从https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words获取不良词汇列表并去除。
- 去除代码 :对于NLP任务,通常最好从内容中去除代码,但有些情况下代码可能是所需内容,需谨慎处理。
- 语言检测 <
超级会员免费看
订阅专栏 解锁全文
7928

被折叠的 条评论
为什么被折叠?



