概率索引(PrIx)框架:原理、方法与应用
1. PrIx框架概述
PrIx框架旨在处理文本图像,将图像中可合理解释为文本元素(如字符和单词)的笔画集合进行符号化表示,使其如同电子文本一样。该框架的主要关注点在于保留文本图像(尤其是手写文本图像)内在不确定性所需的所有信息。它从两个角度进行呈现:
- 图像处理视角 :将图像中的每个文本元素视为需要检测和识别的小对象。这表明PrIx和关键字搜索(KWS)本质上是一个对象识别过程,需要在图像的每个位置估计每个对象类别的后验概率。
- 与手写文本识别(HTR)等价视角 :将底层的对象识别问题等同于HTR,把PrIx视为一种明确保留图像解释不确定性的HTR形式。
2. 像素级文本图像表示:二维后验图
2.1 后验图的定义
在这个视角下,单词被看作是需要检测和识别的小对象,每个对象用 (v) 表示,假设其属于一个大的(开放)“对象类”集合,可称为(开放)词汇表。文本图像 (x) 和(关键)单词 (v) 的后验图定义为 (v) 唯一且完整地出现在包含像素 ((i, j)) 的某个边界框中的概率,用数学符号表示为:
[P(Q = v|X = x, L = (i, j)) \equiv P(v|x, i, j), 1\leq i\leq I, 1\leq j\leq J, v\in V]
其中 (L) 是位置(像素坐标)集合上的随机变量,(I) 和 (J) 分别是 (x) 的水平和垂直维度。(P(v|x, i, j)) 是一个合适的概率分布,满足:
[\sum_{v} P(v|x, i, j)
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



