paddlehub利用自有数据集进行训练和微调

最新推荐文章于 2025-04-14 09:43:34 发布

Be better。

最新推荐文章于 2025-04-14 09:43:34 发布

阅读量2.6k

点赞数

文章标签： nlp 深度学习

本文链接：https://blog.youkuaiyun.com/weixin_44698389/article/details/112289695

版权

使用paddlehub进行自有数据集的训练和微调（NLP）

paddlehub利用自有数据集进行训练和微调

paddlehub利用自有数据集进行训练和微调

本文通过调用百度的持续学习语义理解框架ERNIE模型，实现NLP任务，并导入自有数据集进行训练和微调，以达到实现情感分类的目的。

1.基本骨架-Transformer Encoder

ERNIE 采用了 Transformer Encoder 作为其语义表示的骨架。Transformer 是由论文Attention is All You Need 首先提出的机器翻译模型，在效果上比传统的 RNN 机器翻译模型更加优秀。Transformer 的简要结构如图1所示，基于 Encoder-Decoder 框架, 其主要结构由 Attention(注意力) 机制构成：

Encoder 由全同的多层堆叠而成，每一层又包含了两个子层：一个Self-Attention层和一个前馈神经网络。Self-Attention 层主要用来输入语料之间各个词之间的关系（例如搭配关系），其外在体现为词汇间的权重，此外还可以帮助模型学到句法、语法之类的依赖关系的能力。
Decoder 也由全同的多层堆叠而成，每一层同样包含了两个子层。在 Encoder 和 Decoder 之间还有一个Encoder-Decoder Attention层。Encoder-Decoder Attention层的输入来自于两部分，一部分是Encoder的输出，它可以帮助解码器关注输入序列哪些位置值得关注。另一部分是 Decoder 已经解码出来的结果再次经过Decoder的Self-Attention层处理后的输出，它可以帮助解码器在解码时把已翻译的内容中值得关注的部分考虑进来。例如将“read a book”翻译成中文，我们把“book”之所以翻译成了“书”而没有翻译成“预定”就是因为前面Read这个读的动作。
在解码过程中 Decoder 每一个时间步都会输出一个实数向量，经过一个简单的全连接层后会映射到一个词典大小、被称作对数几率（logits）的向量，再经过 softmax 归一化之后得到当前时间步各个词出现的概率分布。

在这里插入图片描述
Transformer 在机器翻译任务上面证明了其超过 LSTM/GRU 的卓越表示能力。从 RNN 到 Transformer，模型的表示能力在不断的增强，语义表示模型的骨架也经历了这样的一个演变过程。如图2所示，该图为BERT、GPT 与 ELMo的结构示意图，可以看到 ELMo 使用的就是 LSTM 结构，接着 GPT 使用了 Transformer Decoder。进一步 BERT 采用了 Transformer Encoder，从理论上讲其相对于 Decoder 有着更强的语义表示能力，因为Encoder接受双向输入，可同时编码一个词的上下文信息。最后在NLP任务的实际应用中也证明了Encoder的有效性，因此ERNIE也采用了Transformer Encoder架构。
在这里插入图片描述

2.ERNIE基本原理

ERNIE 分为 1.0 版和 2.0 版，其中ERNIE 1.0是通过建模海量数据中的词、实体及实体关系，学习真实世界的语义知识。相较于BERT学习原始语言信号，ERNIE 1.0 可以直接对先验语义知识单元进行建模，增强了模型语义表示能力。例如对于下面的例句：“哈尔滨是黑龙江的省会，国际冰雪文化名城”。
在这里插入图片描述
BERT在预训练过程中使用的数据仅是对单个字符进行屏蔽，例如图3所示，训练Bert通过“哈”与“滨”的局部共现判断出“尔”字，但是模型其实并没有学习到与“哈尔滨”相关的知识，即只是学习到“哈尔滨”这个词，但是并不知道“哈尔滨”所代表的含义；而ERNIE在预训练时使用的数据是对整个词进行屏蔽，从而学习词与实体的表达，例如屏蔽“哈尔滨”与“冰雪”这样的词，使模型能够建模出“哈尔滨”与“黑龙江”的关系，学到“哈尔滨”是“黑龙江”的

最低0.47元/天解锁文章