新闻文本分类 - Task6 基于深度学习的文本分类3

最新推荐文章于 2025-09-03 09:36:04 发布

原创

最新推荐文章于 2025-09-03 09:36:04 发布 · 826 阅读

0 ·

CC 4.0 BY-SA版权

本文深入探讨基于深度学习的文本分类，重点介绍了Transformer的结构和工作原理，特别是其self-attention机制。接着，文章阐述了预训练语言模型如ELMo、GPT和BERT如何利用上下文信息进行文本表示，特别是BERT的双向预训练和mask语言模型策略。最后，讨论了基于BERT的文本分类方法，包括预训练和微调步骤。

基于深度学习的文本分类

文本表示Part4

Transformer原理

Transformer是在"Attention is All You Need"中提出的，模型的编码部分是一组编码器的堆叠（论文中依次堆叠六个编码器），模型的解码部分是由相同数量的解码器的堆叠。

在这里插入图片描述
我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后，它们首先流过一个self-attention层，该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络（Feed Forward Neural Network），每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。
在这里插入图片描述
这里能看到Transformer的一个关键特性，每个位置的词仅仅流过它自己的编码器路径。在self-attention层中，这些路径两两之间是相互依赖的。前向网络层则没有这些依赖性，但这些路径在流经前向网络时可以并行执行。

Self-Attention中使用多头机制，使得不同的attention heads所关注的的部分不同。
在这里插入图片描述
编码"it"时，一个attention head集中于"the animal"，另一个head集中于“tired”，某种意义上讲，模型对“it”的表达合成了的“animal”和“tired”两者。