实体提取、校正与椭圆检测方法解析
实体提取与校正
在实体提取与校正领域,对于扫描发票中的实体提取,提出了一套有效的方法。
相关令牌聚类
首先是相关令牌聚类步骤,提出了一个校正模块用于消除多余的令牌。该模块通过测量连续令牌 $T F_i$ 和 $T F_j$($j = i + 1$)之间的距离来建模结构的几何关系,每个距离的计算公式为:
$d_{ij} = xF_j - (xF_i + wF_i)$
使用增量算法(如算法 2 所示)来连接相关令牌。
Algorithm 2. Incremental algorithm
1: Input: SetF // Entity containing at least one token and may contain noisy
tokens SetN = {T N
i |SetN ⊂SetF}
2: Output: RT = SetF/SetN// Relevant tokens
3: begin
4:
while SetF ̸= ∅do
5:
if SetF = 1 then
6:
RT = SetF
7:
elseif SetF > 1 then
8:
for j = 1 : SetF −1 do
9:
if dij ≤S then
10:
T F
i = concat(T F
i , T F
j )
11:
T F
j = []
12:
elseif dij > S then
13:
RT = SetF/SetN
14:
end if
15:
end for
16:
return RT = SetF/S
超级会员免费看
订阅专栏 解锁全文
7341

被折叠的 条评论
为什么被折叠?



