LayoutLM 结合文本和布局的图像文章理解的预训练模型

最新推荐文章于 2025-02-14 07:00:00 发布

原创最新推荐文章于 2025-02-14 07:00:00 发布 · 278 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

部署运行你感兴趣的模型镜像

abstract

在layoutlm出现以前，已经有很多文本层面(NLP)的应用，但却忽视了布局和版式信息，微软提出的layoutlm首次结合了文本和布局信息，从而在文本理解收据理解图像文本分类上有较大的提升

document

Model

LayoutLM基于BERT模型

BERT--TRANSFORMER--ATTENTION--ENCODER(DECODER)

BERT实际上就是使用transformer和内部的attention机制用来搞理解 QA任务。

在此基础上 layoutml加入了两个输入

2-D Position Embedding

x0 y0 x1 y1 左上和右下

Image Embedding

利用图像特征并与文本要对齐

整个过程，先将position embedding和BERT中的text embedding相加做预训练

微调部分输出layoutlm embedding 再加上 image embedding

结果：

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Annyufeng

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

NLP预训练模型与语料库

AI天才研究院

08-02

1180

1.1 引言：在自然语言处理任务中，有很多关于数据集、模型及词向量等重要环节。本文将结合自己的实际经验分享一些关于预训练模型与语料库的心得体会。随着深度学习的火热，基于神经网络的预训练模型越来越多，例如BERT、ALBERT、RoBERTa等。这些预训练模型对各种任务都有着很好的性能提升，但同时也带来了新的问题——模型太大。为了更好地解决这一问题，研究人员们又研究出更小的预训练模型，如DistilBERT、TinyBERT等。这些模型的大小仍然小于BERT和ALBERT，但精度却有明显优势。

OCR经典神经网络(三)LayoutLM v2算法原理及其在发票数据集上的应用(NER及RE)

qq_44665283的博客

10-21

2339

OCR经典神经网络(三)LayoutLM v2算法原理及其在发票数据集上的应用(NER及RE)

1 条评论您还未登录，请先登录后发表或查看评论

大模型-LayoutLM详细介绍

最新发布

晓的博客

02-14

1644

近年来，预训练技术已在多种自然语言处理（NLP）任务中得到成功验证。尽管预训练模型在NLP应用中得到了广泛使用，但它们几乎完全侧重于文本级别的操作，而忽略了对于文档图像理解至关重要的布局和样式信息。在本文中，我们提出了LayoutLM，以联合建模扫描文档图像中文本和布局信息之间的交互，这对于许多现实世界文档图像理解任务（如从扫描文档中提取信息）是有益的。此外，我们还利用图像特征将单词的视觉信息纳入LayoutLM。据我们所知，这是第一次在单一框架中联合学习文本和布局进行文档级预训练。

【LayoutLM】LayoutLMv1---基于大规模未标记扫描文档图像进行自监督训练

h661975的博客

04-02

1218

• 首次在单一框架中对扫描文档图像的文本和布局信息进行预训练,利用图像特征来实现新的最先进的结果。• LayoutLM 使用屏蔽视觉语言模型和多标签文档分类作为训练目标，在文档图像理解任务中显着优于几种 SOTA 预训练模型。

论文阅读2：《LayoutTransformer: Layout Generation and Completion with Self-attention》主题：Layout Generation...

思念殇千寻的博客

06-22

1485

Background 这篇文章想解决的问题是复杂场景的布局生成 1. 复杂场景可以理解为由较小的“原子”构成，生成一个好的布局需要对这些原子之间的关系有非常好的理解。 2. 引言中提到了认知科学的概念，对于一个场景有“感知”和“理解”，感知是浅层的，理解是深层的，比如天空在地的上方，马不会骑车。在合成场景中，有两个关键因素即 layout 和 appearance，只有这两个因素...

LayoutLM——文本与布局的预训练用于文档图像理解

木东的博客

08-25

8483

摘要： 预训练技术近年来在多种NPL任务中取得了广泛的成功。尽管广泛的NPL应用的预训练模型，其大多聚焦于文本级别的操作，而忽略了布局与风格信息，这对文档图像的理解至关重要。该篇论文提出了LayoutLM来联合建模扫描文档图像的文本与布局信息关系，这将有益于真实世界中大量的图像理解任务，如文档图像的信息提取。此外，可以利用图像特征合并文字的视觉信息到LayoutLM中。这是第一次在单独的文档级预训练结构将文字与布局联合学习。其在一些下游任务中达到了新的高水平结果，包括表格理解，收据理解，文档图像分类。代码与

LayoutLM、LayoutLMV2、LayoutXLM、LayoutLMV3

热门推荐

北落师门XY的博客

08-20

1万+

微软一代LayoutLM 用途：表单理解、票据理解、文档图像分类。也就是进行实体识别及分类。 paper: https://github.com/microsoft/unilm/tree/master/layoutlm 简介： https://www.msra.cn/zh-cn/news/features/layoutlm code: https://github.com/microsoft/unilm/tree/master/layoutlm 注意：https://github.com/m

3-2+通用文档智能预训练模型LayoutLM及其应用.pdf

03-18

总的来说，LayoutLM是一种创新的预训练模型，它通过结合文本和布局信息，提高了文档理解的准确性和效率，降低了对标注数据的依赖，从而推动了文档AI领域的进步，并在自动化业务流程和智能信息检索等方面展现了强大的...

训练LayoutLM数据集

07-01

LayoutLM是一种预训练模型，由微软研究院开发，主要用于理解和生成文档布局信息。它结合了自然语言处理和计算机视觉技术，特别是在处理结构化和半结构化文档（如表格、简历、发票等）时，能理解文本内容与它们在页面...

LayoutLM：通用文档预训练模型及其在智能分析中的应用

LayoutLM是一个专门针对文档智能处理的预训练模型，其目标是通过理解文档的布局信息，提高对多模态信息（文本和图像）的融合处理能力，从而在各种文档理解任务中取得更好的性能。在现实世界中，LayoutLM模型可以...

Layout系列模型（LayoutLM,LayoutLMv2,LayoutXLM）

十里清风

05-29

8928

Layout LM 联合建模文档的layout信息和text信息，预训练文档理解模型。模型架构使用BERT作为backbone，加入2-D绝对位置信息，图像信息，分别捕获token在文档中的相对位置以及字体、文字方向、颜色等视觉信息。 2-D Position Embedding. 将文档页面视为坐标系统（左上为原点），使用2张embedding table构造4种位置嵌入，横纵轴各使用1张嵌入表； Image Embedding. 将文档页面图像分割成小图片序列，基于Faster R-CNN建

LayoutTransformer: Layout Generation and Completion with Self-attention

qq_43800752的博客

06-11

1546

我们解决了在各种领域中（如图像、移动应用、文档和3D对象）进行场景布局生成的问题。大多数复杂场景，无论是自然场景还是人工设计的场景，都可以用简单组合的图形基元的有意义排列来表示。生成新的布局或扩展现有布局需要理解这些基元之间的关系。为此，我们提出了LayoutTransformer，这是一个新颖的框架，利用自注意力来学习布局元素之间的上下文关系，并在给定领域中生成新的布局。我们的框架可以从空集或初始种子基元集生成新的布局，并且可以轻松扩展以支持每个布局中的任意数量的基元。

【 LayoutLM】 LayoutLMv3---统一的文本和图像掩码来预训练文档 AI 的多模态 Transformer

h661975的博客

04-02

4499

从而缓解了这个问题。比较模型 #3 和模型 #2 的结果，MIM 目标有利于 CORD 和 RVL-CDIP。由于简单地使用线性图像嵌入改进了 FUNSD，因此 MIM 不会进一步对 FUNSD 做出贡献。通过在训练中结合 MIM 目标，在微调 PubLayNet 时损失会收敛，如图 4 所示，并且获得了理想的 mAP 分数。结果表明，MIM 可以帮助规范训练。因此，MIM 对于 PubLayNet 上的文档布局分析等视觉任务至关重要。

多模态预训练模型指北——LayoutLM

Paper weekly

09-18

2497

©PaperWeekly 原创 ·作者 | 杨希单位 | 中国移动云能力中心研究方向 | 自然语言处理引子LayoutLM 从提出到现在已经有 2 年多的时间了，多模态的文档、表单类的识别任务也逐渐走向成熟，在上一期《多模态预训练模型指北——LayoutLM（一）》笔者详细介绍了微软提出的 LayoutLMv1 以及对应的升级版 LayoutLMv2。在此基础上，本期简单的介绍一下微软在 202...

文档图像分类、信息提取、信息结构化之 LayoutLM、LayoutLMv2、LayoutXLM —— 论文阅读笔记

学无止境

04-17

8411

LayoutLM: Pre-training of Text and Layout for Document Image Understanding LAYOUTLMV2: MULTI-MODAL PRE-TRAINING FOR VISUALLY-RICH DOCUMENT UNDERSTANDING 在表单理解、票据理解和文档图像分类都有不错的效果。

文档理解的新时代：LayOutLM模型的全方位解读

INTSIG的博客

11-29

658

在现代文档处理和信息提取领域，机器学习模型的作用日益凸显。特别是在自然语言处理（NLP）技术快速发展的背景下，如何让机器更加精准地理解和处理复杂文档成为了一个挑战。文档不仅包含文本信息，还包括布局、图像等非文本元素，这些元素在传递信息时起着至关重要的作用。传统的NLP模型通常忽略了这些视觉元素，但LayOutLM模型的出现改变了这一局面。LayOutLM模型是一种创新的深度学习模型，它结合了传统的文本处理能力和对文档布局的理解，从而在处理包含丰富布局信息的文档时表现出色。

LayoutLMv1、Mv2阅读笔记

qq_48612666的博客

03-07

766

LayoutLM阅读笔记

Layoutlmv2代码篇（保姆式教程，如果你学不会，我就送你一个代码小郭）

qq_43241562的博客

03-19

4991

Layoutlmv2（代码篇）同学们，注意啦！layoutlmv2模型可能是NLP界的福音哦！

论文阅读3：《BLT: Bidirectional Layout Transformer for Controllable Layout Generation》主题：Layout Generation...

思念殇千寻的博客

06-23

754

Background 这篇文章是LayoutTransformer和VTN的后续工作，可以说和我分享的前两篇文章是同根共源的。但是它不开源。 Motivation 现有的layout transformer只能够解决unconditional的layout生成问题(这话没毛病)，考虑不了用户的特定需求。作者提出了，现有的模型没有办法控制生成的结果里有什么，也不能控制那玩意儿有多大...