How to Fine-Tune BERT for Text Classification

最新推荐文章于 2025-04-25 09:18:00 发布

原创最新推荐文章于 2025-04-25 09:18:00 发布 · 1.7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#bert #自然语言处理 #深度学习

论文专栏收录该内容

8 篇文章

订阅专栏

该研究探索了如何有效微调BERT模型以提升文本分类性能。通过任务内预训练、领域内预训练和多任务微调等策略，以及处理长文本、选择层特征和避免灾难性遗忘的技术，实验结果显示这些方法能显著改善模型效果。在多个英文和中文文本分类任务中，这些优化策略达到了SOTA水平。

简介

How to Fine-Tune BERT for Text Classification
这篇论文主要研究了如何在文本分类任务最大化发掘BERT模型的潜力，探索了几种微调BERT的方案。

提供一种常规的微调BERT的解决方案：（1）在任务内数据或者领域内数据进一步预训练BERT；（2）在多个相关任务上进行多任务微调BERT；（3）在目标任务上微调BERT。
探索了在目标任务上微调BERT的方法，包含：长文本预处理、层向量的选择、层调节的学习率、灾难性遗忘和小样本学习。
在7个广泛学习的英文文本分类任务和一个中文新闻分类数据集实现了SOTA

方法论

黑、蓝、红三种颜色的线代表三种微调BERT的方案。
在这里插入图片描述

微调策略

长文本预处理、目标任务选择哪一层、优化算法、学习率。
不同层的神经网络可以捕捉不同的句法和语义特征。

进一步预训练

在目标任务领域进一步预训练BERT，考虑到不同领域的数据分布不同，因此可以考虑在指定领域预训练BERT：

在目标任务训练集预训练BERT
在于目标任务相同领域的数据集预训练BERT
交叉领域训练，在目标任务领域和其他领域预训练BERT

多任务预训练

多任务学习有助于探索不同任务的共享知识。所有的任务共享BERT层和编码层，只有最后的分类层不同

实验1结果

超参数：
$\begin{array}{c|c} \hline \text{超参数} & \text{参数} \\ \hline \text{模型} & \text{BERT-base}\\ \text{隐藏层大小} & 768 \\ \text{层数} & 12 \\ \hline \end{array}$
预训练超参数
$\begin{array}{c|c} \hline \text{超参数} & \text{参数} \\ \hline \text{batch size} & 32 \\ \text{输入最大长度} & 128 \\ \text{学习率} & 5e-5 \\ \text{train steps} & 10000 \\ \text{warm-up steps} & 1000 \\ \text{优化器} & \text{Adam} \\ \beta_1 & 0.9 \\ \beta_2 & 0.999 \\ \text{dropout-probability} & 0.1 \\ \hline \end{array}$
微调参数
$\begin{array}{c|c} \hline \text{超参数} & \text{参数} \\ \hline \text{batch size} & 24 \\ \text{学习率} & 2.5e-5 \\ \text{warm-up proportion} & 0.1 \\ \text{优化器} & \text{Adam} \\ \beta_1 & 0.9 \\ \beta_2 & 0.999 \\ \text{dropout-probability} & 0.1 \\ \text{epoch} & 4 \\ \hline \end{array}$