发票实体提取校正与形状椭圆检测方法
发票实体提取与校正
在发票数据处理中,实体提取与校正至关重要。相关令牌聚类是关键步骤,其目的是消除多余令牌。通过测量连续令牌间的距离来建模结构的几何关系,公式为:
[d_{ij} = x_{F_j} - (x_{F_i} + w_{F_i})]
采用增量算法(算法2)来连接相关令牌,具体如下:
Algorithm 2. Incremental algorithm
1: Input: SetF // Entity containing at least one token and may contain noisy
tokens SetN = {T N
i |SetN ⊂SetF}
2: Output: RT = SetF/SetN// Relevant tokens
3: begin
4:
while SetF ̸= ∅do
5:
if SetF = 1 then
6:
RT = SetF
7:
elseif SetF > 1 then
8:
for j = 1 : SetF −1 do
9:
if dij ≤S then
10:
T F
i = concat(T F
i , T F
j )
11:
T F
j = []
12:
elseif dij > S then
13:
RT = SetF/SetN
14:
end if
15:
end for
16:
return RT = SetF/SetN
17:
end if
18:
end while
19: end
对于非连续结构的实体提取,由于绘制关系耗时且无效,提出过滤标签的方法。构建非连续图(Noncontiguous Gr
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



