多模态综述

置顶 CharlesWu123

已于 2023-04-28 15:04:43 修改

阅读量900

点赞数 2

分类专栏：多模态学习文章标签：深度学习神经网络人工智能

于 2021-07-08 22:36:07 首次发布

本文链接：https://blog.youkuaiyun.com/m0_38007695/article/details/118584136

版权

13 篇文章

订阅专栏

Bert预训练

Bert 预训练
VilBERT，LXMERT，VisualBERT，Unicoder-VL，VL-BERT，ImageBERT

文档理解
LayoutLMFT、StructuralLM

UDOP
Unifying Vision, Text, and Layout for Universal Document Processing
收录：CVPR2023
论文：https://arxiv.org/abs/2212.02623
代码：https://github.com/microsoft/i-Code/tree/main/i-Code-Doc
解读：https://blog.youkuaiyun.com/m0_38007695/article/details/130218532?spm=1001.2014.3001.5501
FlexDM
Towards Flexible Multi-modal Document Models
收录：CVPR2023
论文：https://arxiv.org/abs/2303.18248
代码：https://cyberagentailab.github.io/flex-dm
GeoLayoutLM
GeoLayoutLM: Geometric Pre-training for Visual Information Extraction
收录：CVPR2023
论文：https://arxiv.org/abs/2304.10759
代码：https://github.com/AlibabaResearch/AdvancedLiterateMachinery