利用单语语料库的伪迁移学习及疾病数据集分类预测分析
伪迁移学习方法
伪迁移学习方法将整个过程分为两个部分。在初始(预训练)阶段,复制单语语料库,并对网络进行100个周期的训练以调整权重。在后续阶段,将这些权重转移到罗马乌尔都语和相应乌尔都语序列的原始平行语料库上训练网络,以实现迁移学习。
源学习模型
- 背景 :实际实验的源语言(Ls)是罗马乌尔都语(用拉丁字母表示乌尔都语的运行文本),目标语言(Lt)是乌尔都语(用修改后的波斯 - 阿拉伯文字书写)。为了进行知识转移,需要构建一个神经网络,使其能够根据给定的文本输入序列生成Lt中的序列。
- 操作步骤 :
- 由于缺乏大规模平行语料库,从包含超过1.25亿个标记的单语语料库中提取唯一单词集(Wm)。
- 准备一个虚拟平行语料库(Mp),定义为相同单词对的集合,即$Mp = { (w_{a1}, w_{a1}), (w_{a2}, w_{a2}), \cdots, (w_{an}, w_{an}) }$,其中$w_{ai} \in Wm$。
- 在回声神经网络(ENN)中对Mp进行Seq2Seq处理训练,使输入的单词在输出中原样返回,直到ENN的损失接近零。如果Mp包含12.5 - 15万个单词对,100个周期足以完善回声网络的权重。
- 最终,ENN获得了单词内部表示的知识,如单词形成和字母序列。由于这种知识是通过单语语料库构建的,且系统仅能回声单词,因此称为伪知识。当ENN的权重(W)转移到其他神经网络进行权重初始化时,
超级会员免费看
订阅专栏 解锁全文
1411

被折叠的 条评论
为什么被折叠?



