文本分类《Multilingual Hierarchical attention networks for document classification》

最新推荐文章于 2024-07-02 10:51:28 发布

原创最新推荐文章于 2024-07-02 10:51:28 发布 · 810 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#文本分类 #分层注意力

自然语言处理专栏收录该内容

22 篇文章

订阅专栏

本文提出一种多语言分层注意力模型，旨在解决多语言文本分类中计算成本高及知识迁移难题。通过共享参数，模型在保持较低参数量的同时，实现了不同语言间的知识迁移，尤其在资源有限的情况下表现更佳。

Motivation：

在多语言的文本分类问题上一般都面临两个问题：一是计算成本会随着语言数量的增加而线性增加；模型缺乏不同语言之间知识迁移能力，也就是在一种语言上习得的知识不能应用到另一种语言上。当前解决上述问题的方案都需要不同语言的文本具有相同的标签，但是这个要求往往很难得到满足。因此，本文提出一种多语言的分层注意力模型，该模型在保证尽量少添加参数的同时，使模型具有知识迁移的能力。

单语模型结构：

分层注意力网络实现文本分类一般要经过三个步骤：

编码层：一般采用全连接、GRU或双向GRU；
注意力层：分别在单词级别和句子级别给予较大权重；
分类层：对句子级别注意力层的输出经过线性层之后再使用sigmoid输出，因为一篇文档可能对应多个label，所以预测结果取输出大于某个阈值对应的多个标签。

多语言模型结构：

模型整体框架和上面类似，区别在于为了降低参数量和学习不同语言文本的结构共享了一部分参数信息：一、共享encoders部分的参数；二、共享attention部分的参数；三、共享encoders和attention的参数（both）。

此外，在对其中一种语言更新参数的过程中也要更新其他语言的参数，因此有如下损失函数的公式：

实验结果：

分别从full-resource scenario和low-resource scenario观察模型的F1值。

在full-resource场景下，对于以上三种共享参数的模型，可以发现共享attention层的参数会达到最好的效果，而share both反而会带来性能下降。此外，在其他语言上训练的模型在目标语言上也能测试不错的效果，体现了知识的迁移能力。

在low-resource场景下，多语言模型比单语言模型在少量数据的表现更好。并且，往往share both能取得最好的效果。

总结:

可以尝试在模型的不同位置使用注意力机制；
优化损失函数融合近似的主题信息；

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。