多模态技术:手写图像转录、文档布局分析与视觉问答
手写图像转录
挑战与需求
在实际应用中,我们常常需要从扫描文档中提取信息,比如从身份证图片或手写表格图片中提取关键信息。然而,由于手写风格的多样性、扫描或图片质量的参差不齐以及光照条件的不同,从图像中提取(转录)文本变得十分棘手。
TrOCR 工作流程
为了解决手写信息转录的问题,我们可以利用 TrOCR 架构。其工作流程如下:
graph LR
A[输入图像] --> B[调整大小]
B --> C[分割成图像块]
C --> D[展平图像块并获取嵌入]
D --> E[结合位置嵌入并通过编码器]
E --> F[编码器的键值向量输入解码器交叉注意力]
F --> G[输出最终结果]
- 调整大小 :将输入图像调整为固定的高度和宽度。
- 分割图像块 :把图像分割成一组小块。
- 获取嵌入 :展平这些小块并获取每个小块对应的嵌入。
- 编码处理 :将小块嵌入与位置嵌入相结合,然后通过编码器。
- 解码输出 :将编码器的键值向量输入解码器的交叉注意力,以获取最终层的输出。
多模态技术详解:手写转录与视觉问答
超级会员免费看
订阅专栏 解锁全文
945

被折叠的 条评论
为什么被折叠?



