ITA：Image-Text Alignments for Multi-Modal Named Entity Recognition

随舒朵朵

于 2023-11-10 19:00:04 发布

阅读量345

点赞数

文章标签：深度学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_40634381/article/details/128944292

版权

ITA：通过图像文本对齐实现的多模态命名实体识别

2022NAACL

代码：https://github.com/Alibaba-NLP/KB-NER/tree/main/ITA

1.核心思想

在多模态命名实体识别任务中，文本依然发挥关键作用，因此本文将图像特征对齐到文本表示空间，以使得基于transformer的文本预训练向量得以被更好地使用。
图像模态仅在消除歧义中扮演重要角色。
多模态命名实体识别模型（ MNER model）应当在仅有文本的情况下有一定的健壮性（因为实际场景中不是所有的都带有图像信息）。

2. 整体框架

图1：ITA的体系结构

ITA将图像对齐为对象标签 (局部对齐) 和图像标题 (全局对齐)。ITA将它们作为视觉上下文，然后将它们与输入文本一起馈送到基于transformer的嵌入中。在交叉视图对齐模块中，ITA最小化了交叉模态输入的输出分布与文本输入之间的距离。视觉环境中的红色单词是我们认为有助于预测的内容。

如上图：Visual Contexts表示从图像端获得的“视觉上下文”（也是文本表示），再将其和Input Texts拼接起来，经过一个Transformer-based Embeddings（如BERT等），再经过一个CRF层（序列标注任务常用），最后的Cross-View Alignment部分用来对齐（通过计算两个view的KL距离，详细看原文）。

ITA可以概括为三个方面：

作为局部对齐的对象标记：ITA从对象检测器中局部提取对象标记及其对应的图像区域属性。
作为全局对齐的图像标题：ITA通过从图像标题模型预测图像标题来总结图像所描述的内容。
交叉视图对齐：我们计算两个输入视图的输出分布之间的KL散度。

这样一来，解决了如下几个问题：

1.有的MNER场景缺少图片
2.图片中的噪音会误导预测结果
3.许多在线场景对推理时间要求高，而直接用pipeline的方法将文本和图像对齐很耗时。

3.实验结果

4.总结

ITA将图像转换为对象标签、标题和OCR文本，以将图像表示与文本空间对齐。
CVA使MNER模型更好地利用输入中的文本信息。
我们发现，ITA显着优于先前的最先进的方法对MNER数据集。
我们进一步分析了ITA如何简化跨模态对齐，以及图像如何影响NER预测。

博客等级

码龄8年

6
原创

32
点赞

267
收藏

21
粉丝

关注

私信

热门文章

分类专栏

科研工具 1篇
多模态命名实体识别 2篇

最新评论

Citespace下载安装和使用
2301_81895249: 感谢您的分享，WoS数据导出txt.格式文本分析不了是什么原因呢
ITA：Image-Text Alignments for Multi-Modal Named Entity Recognition
优快云-Ada助手: 恭喜您撰写了这篇名为“ITA：Image-Text Alignments for Multi-Modal Named Entity Recognition”的博客！您对多模态命名实体识别的研究让人印象深刻。我希望您能继续保持创作，不断探索这个领域的新思路和方法。或许在下一篇博客中，可以结合更多实际案例或者对比分析，来进一步展示您的研究成果。谦卑地期待您的下一篇精彩作品！
好用的科研工具！！！
优快云-Ada助手: 恭喜您写了第6篇博客！标题中的三个感叹号真的让我感受到了您对这些科研工具的热情。从您的标题来看，我可以感受到您对这些工具的肯定和推崇。希望您能继续保持创作的热情和动力，为我们带来更多有用的内容。同时，我也想给您一些建议。或许在您的下一篇博客中，可以详细介绍一些您在使用这些科研工具过程中遇到的挑战以及如何克服它们，这样可以让读者更全面地了解这些工具的优势和适用场景。谦虚地说，我相信您的经验和见解会给读者带来更多帮助。期待您的下一篇博客！
MAF: A General Matching and Alignment Framework forMultimodal Named Entity Recognition
重生之我会拧瓶盖: 兄弟，有论文pdf吗，分享一下
Good Visual Guidance Makes A Better Extractor:Hierarchical Visual Prefix for Multimodal Entity and
更科瑠夏Q_Q: 对该篇论文解释清楚，并且自问自答环节超级棒！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。