多任务学习在自然语言处理中的实验与分析
1. 探索性数据分析
在进行模型实验之前,我们首先对训练、验证和测试的原始数据进行了分析。原始数据采用列格式,每个标记都有相应的注释,具体格式如下表所示:
| Tokens | POS | CHUNK | NER |
|---|---|---|---|
| U.N. | NNP | I-NP | I-ORG |
| official | NN | I-NP | O |
| Ekeus | NNP | I-NP | I-PER |
| heads | VBZ | I-VP | O |
| for | IN | I-PP | O |
| Baghdad | NNP | I-LOC | I-LOC |
| – | – | O | O |
同时,我们对每个数据集的文章总数、句子总数和标记总数进行了基本分析,结果如下表:
| Dataset | Articles | Sentences | Tokens |
|---|---|---|---|
| Training | 946 | 14,987 | 203,621 |
| Validation | 216 | 3466 | 51,362 |
| Test | 231 | 3684 | 46,435 |
另外,对于命名实体识别(NER)的类别和每个类别的标记数量也进行了统计,如下表:
| Dataset | LOC | MISC | ORG | PER |
|---|---|---|---|---|
| Training | 7140 | 3438 | 6321 | 6600 |
| Validation | 1837 | 922 | 1341 | 1842 |
| Test | 1668 | 702 | 1661 | 1617 |
这些数据为后续的多任务学习实验提供了基础。
2. 多任务学习模型构建
我们基于 Søgaard 和 Golberg 的研究,采用双向循环神经网络(RNN)作为编码器和解码器网络,以“联合学习”模式进行实验。“联合学习”有两种不同的配置:
- 配置(a):所有任务之间共享层,这些层连接到三个不同的 softmax 层(词性标注 POS、组块分析 chunk 和命名实体识别 NER)。
- 配置(b):每个 RNN 位于不同的层,较低层的隐藏层流入下一个较高层。
以下是 JointModel 类的代码,其中定义了(a)单独学习、(b)共享层联合学习和(c)级联联合学习的所有配置:
# initialization of the graph
def forward(self, input, *hidden):
if self.train_mode == 'Joint':
# when the number of layers is same, hidden layers are shared
# and connected to different outputs
if self.nlayers1 == self.nlayers2 == self.nlayers3:
logits, shared_hidden = self.rnn(input, hidden[0])
outputs_pos = self.linear1(logits)
outputs_chunk = self.linear2(logits)
outputs_ner = self.linear3(logits)
return outputs_pos, outputs_chunk, outputs_ner, shared_hidden
# cascading architecture where low−level tasks flow into high level
else:
# POS tagging task
logits_pos, hidden_pos = self.rnn1(input, hidden[0])
self.rnn2.flatten_parameters()
# chunking using POS
logits_chunk, hidden_chunk = self.rnn2(logits_pos, hidden[1])
self.rnn3.flatten_parameters()
# NER using chunk
logits_ner, hidden_ner = self.rnn3(logits_chunk, hidden[2])
outputs_pos = self.linear1(logits_pos)
outputs_chunk = self.linear2(logits_chunk)
outputs_ner = self.linear3(logits_ner)
return outputs_pos, outputs_chunk, outputs_ner, hidden_pos, hidden_chunk, hidden_ner
else:
# individual task learning
logits, hidden = self.rnn(input, hidden[0])
outputs = self.linear(logits)
return outputs, hidden
3. 多任务学习实验设计
由于我们有不同的任务(POS、组块分析和 NER)、输入层选择(预训练嵌入或从数据中提取的嵌入)、神经网络架构选择(LSTM 或双向 LSTM)以及多任务学习(MTL)技术(联合共享和联合分离),我们进行了以下实验以逐步深入了解:
1.
LSTM + POS + Chunk
:在编码器 - 解码器中使用 LSTM,不使用预训练嵌入,使用不同的共享技术观察对词性标注和组块分析两个任务的影响。
2.
LSTM + POS + NER
:在简单的编码器 - 解码器中使用 LSTM,不使用预训练嵌入,使用不同的共享技术观察对词性标注和命名实体识别两个任务的影响。
3.
LSTM + POS + Chunk + NER
:在简单的编码器 - 解码器中使用 LSTM,不使用预训练嵌入,使用不同的共享技术观察对词性标注、组块分析和命名实体识别三个任务的影响。
4.
Bidirectional LSTM + POS + Chunk
:在编码器 - 解码器中使用双向 LSTM,不使用预训练嵌入,使用不同的共享技术观察对词性标注和组块分析两个任务的影响,该实验可体现神经网络架构对学习的影响。
5.
LSTM + GloVe + POS + Chunk
:在编码器 - 解码器中使用 LSTM,使用预训练的 GloVe 嵌入,使用不同的共享技术观察对词性标注和组块分析两个任务的影响,该实验可体现预训练嵌入对学习的影响。
6.
Bidirectional LSTM + GloVe + POS + Chunk
:在编码器 - 解码器中使用双向 LSTM,使用预训练的 GloVe 嵌入,使用不同的共享技术观察对词性标注和组块分析两个任务的影响,该实验可体现架构和嵌入组合对学习的影响。
7.
Bidirectional LSTM + GloVe + POS + NER
:在编码器 - 解码器中使用双向 LSTM,使用预训练的 GloVe 嵌入,使用不同的共享技术观察对词性标注和命名实体识别两个任务的影响,该实验可体现架构和嵌入组合对学习的影响。
8.
Bidirectional LSTM + GloVe + POS + Chunk + NER
:在编码器 - 解码器中使用双向 LSTM,使用预训练的 GloVe 嵌入,使用不同的共享技术观察对词性标注、组块分析和命名实体识别三个任务的影响,该实验可体现架构和嵌入组合在多任务情况下对学习的影响。
所有实验的参数设置如下:
- 输入嵌入:有或没有预训练的 300 维。
- 隐藏单元数量:128。
- 批量大小:128。
- 训练轮数:300。
- 优化器:ADAM。
- 损失函数:交叉熵损失。
以下是部分实验结果:
实验 1:LSTM + POS + Chunk
| Models | POS Acc % | Chunk Acc % |
|---|---|---|
| POS single task | 86.33 | – |
| Chunk single task | – | 84.69 |
| MTL joint shared | 83.91 | 85.23 |
| MTL joint separate | 86.88 | 85.78 |
实验 2:LSTM + POS + NER
| Models | POS Acc % | NER Acc % |
|---|---|---|
| POS single task | 86.33 | - |
| NER single task | – | 84.92 |
| MTL joint shared | 85.62 | 88.28 |
| MTL joint separate | 86.72 | 89.745 |
实验 3:LSTM + POS + Chunk + NER
| Models | POS Acc % | Chunk Acc % | NER Acc % |
|---|---|---|---|
| POS single task | 87.42 | – | – |
| Chunk single task | – | 85.16 | – |
| NER single task | – | – | 90.08 |
| MTL joint shared | 85.94 | 85.00 | 88.05 |
| MTL joint separate | 87.11 | 86.72 | 88.83 |
从这些实验结果中,我们可以初步观察到不同模型配置和任务组合对性能的影响。例如,在实验 1 和实验 2 中,联合多任务学习中使用分离的 LSTM 层相比共享层在词性标注和组块分析、词性标注和命名实体识别的组合任务中都提高了性能。而在实验 3 中,当三个任务组合时,除了组块分析,联合多任务学习的共享和分离层结果都有所下降,这可能是由于任务之间的关联性不强导致了“负迁移”。
4. 实验流程总结
为了更清晰地展示整个实验过程,我们可以用 mermaid 流程图表示:
graph LR
A[数据准备] --> B[模型构建]
B --> C[实验设计]
C --> D[实验 1: LSTM + POS + Chunk]
C --> E[实验 2: LSTM + POS + NER]
C --> F[实验 3: LSTM + POS + Chunk + NER]
C --> G[实验 4: Bidirectional LSTM + POS + Chunk]
C --> H[实验 5: LSTM + GloVe + POS + Chunk]
C --> I[实验 6: Bidirectional LSTM + GloVe + POS + Chunk]
C --> J[实验 7: Bidirectional LSTM + GloVe + POS + NER]
C --> K[实验 8: Bidirectional LSTM + GloVe + POS + Chunk + NER]
D --> L[结果分析]
E --> L
F --> L
G --> L
H --> L
I --> L
J --> L
K --> L
这个流程图展示了从数据准备到模型构建,再到具体实验设计和最终结果分析的整个过程,涵盖了我们前面介绍的所有内容。通过这样的流程,我们可以系统地进行多任务学习的实验,并深入分析不同因素对模型性能的影响。
5. 更多实验结果及分析
实验 4:Bidirectional LSTM + POS + Chunk
| Models | POS Acc % | Chunk Acc % |
|---|---|---|
| POS single task | 86.56 | – |
| Chunk single task | – | 86.88 |
| MTL joint shared | 84.53 | 88.20 |
| MTL joint separate | 87.34 | 87.11 |
该实验使用双向 LSTM,结果显示与使用 LSTM 的实验 1 性能相似。这表明在这种情况下,仅仅增加架构的复杂性本身并不能改变多任务学习的行为。
实验 5:LSTM + GloVe + POS + Chunk
| Models | POS Acc % | Chunk Acc % |
|---|---|---|
| POS single task | 90.55 | – |
| Chunk single task | – | 88.05 |
| MTL joint shared | 89.84 | 88.12 |
| MTL joint separate | 90.86 | 87.73 |
引入预训练的 GloVe 嵌入后,单任务的词性标注和组块分析性能有了约 4% 的大幅提升。而多任务学习的边际改进与未使用 GloVe 时相似。
实验 6:Bidirectional LSTM + GloVe + POS + Chunk
| Models | POS Acc % | Chunk Acc % |
|---|---|---|
| POS single task | 92.42 | – |
| Chunk single task | – | 89.69 |
| MTL joint shared | 91.72 | 89.53 |
| MTL joint separate | 92.34 | 89.61 |
当同时使用双向 LSTM 和预训练的 GloVe 向量时,不仅单任务性能得到提升,多任务学习的行为也与实验 1 不同。这里共享层和分离层的性能都比单任务差,说明单任务性能越好,多任务学习的影响越小。
实验 7:Bidirectional LSTM + GloVe + POS + NER
| Models | POS Acc % | NER Acc % |
|---|---|---|
| POS single task | 92.42 | – |
| NER single task | – | 95.08 |
| MTL joint shared | 92.89 | 95.70 |
| MTL joint separate | 92.19 | 95.0 |
此实验将双向 LSTM 和预训练的 GloVe 用于词性标注和命名实体识别,与实验 2 结果差异很大。联合多任务学习的共享层对两个任务的性能都有提升,这在之前的实验中未曾出现。
实验 8:Bidirectional LSTM + GloVe + POS + Chunk + NER
| Models | POS Acc % | Chunk Acc % | NER Acc % |
|---|---|---|---|
| POS single task | 92.662 | – | – |
| Chunk single task | – | 88.52 | – |
| NER single task | – | – | 95.78 |
| MTL joint shared | 92.89 | 89.53 | 94.92 |
| MTL joint separate | 91.95 | 90.00 | 95.31 |
该实验将所有任务与双向 LSTM 和 GloVe 结合,与实验 3 相比性能不同。词性标注和组块分析在共享层有提升,但命名实体识别性能下降。除组块分析外,分离层的其他任务性能比实验 3 差。
6. 实验总结与启示
通过上述一系列实验,我们可以总结出以下几点启示:
1.
任务关联性与多任务学习
:当任务之间关联性较强时,如词性标注和组块分析、词性标注和命名实体识别,联合多任务学习中使用分离的 LSTM 层能提高性能;而当任务关联性不强时,可能会出现“负迁移”,导致性能下降。
2.
架构复杂性的影响
:在某些情况下,仅仅增加架构的复杂性(如使用双向 LSTM)并不能改变多任务学习的行为,需要结合其他因素综合考虑。
3.
预训练嵌入的作用
:预训练的 GloVe 嵌入能显著提升单任务的性能,对多任务学习也有一定的边际改进,但在单任务性能较好时,多任务学习的优势可能会减弱。
4.
架构与嵌入的组合
:不同的架构和嵌入组合对多任务学习的影响不同,需要根据具体任务和数据特点进行选择。
7. 未来研究方向
对于想要进一步探索多任务学习的研究者和从业者,可以考虑以下研究方向:
1.
不同预训练嵌入的影响
:尝试使用其他预训练嵌入,如 word2vec,观察其对多任务学习性能的影响。
2.
增加 RNN 层数
:研究增加 RNN 层数对共享和分离层多任务学习行为的影响。
3.
不同循环网络的比较
:比较 LSTM、GRU 和基础 RNN 在多任务学习中的性能差异。
4.
超参数的调整
:研究超参数(如隐藏单元数量、批量大小、训练轮数)对多任务学习的影响。
5.
增加任务类型
:尝试在多任务学习中加入更多任务,如语言模型、情感分类、语义角色标注等,观察其对性能的影响。
6.
与其他方法的比较
:使用相同的数据集,将本实验方法与其他多任务学习方法(如跨缝网络、水闸网络)进行比较分析。
8. 整体实验流程回顾
为了更直观地展示整个研究过程,我们再次用 mermaid 流程图回顾:
graph LR
A[数据准备] --> B[模型构建]
B --> C[实验设计]
C --> D[进行 8 个实验]
D --> E[结果分析]
E --> F[总结启示]
F --> G[提出未来研究方向]
这个流程图概括了从数据准备开始,经过模型构建、实验设计、具体实验操作、结果分析,到最终总结启示和提出未来研究方向的完整过程。通过这样系统的研究,我们对多任务学习在自然语言处理中的应用有了更深入的理解,也为后续的研究和实践提供了有价值的参考。
超级会员免费看
1109

被折叠的 条评论
为什么被折叠?



