文本倾斜检测与无类别逻辑规律异常值检测
1. 文本组件倾斜识别
在对从第四步得到的每个组件进行直线拟合后,计算其倾斜角度。直线拟合每个组件的步骤如下:
1. 分别计算 x 值和 y 值的总和。
2. 计算 x 值的平方和。
3. 计算每个 x 值与其对应的 y 值的乘积之和。
4. 使用以下公式计算直线的斜率:
- (m = \frac{\sum xy - \frac{(\sum x)(\sum y)}{n}}{\sum x^2 - \frac{(\sum x)^2}{n}})
- 其中,x 和 y 是黑色像素的坐标,n 是黑色像素的总数,m = tan(θ)(文本组件的斜率)。对于文本行,通过 (θ = tan^{-1}(m)) 从斜率计算倾斜角度。
将所有满足 -30 < 倾斜角度 < +30 的计算出的倾斜角度存储在列表 £(t) 中。
2. 最终倾斜角度的计算
在这一步中,将 £(t) 中的所有元素按升序排序并存储在 £sorted(t) 中。文档的最终倾斜角度计算如下:
- 图像的倾斜度 = (\frac{\sum_{i = η1}^{η2} £sorted(t)}{|η2 - η1 + 1|})
- 其中,(η1 = (0.4 * λ));(η2 = (0.6 * λ))。
3. 实验结果
该方法在配备 2GB 内存的英特尔酷睿 2 双核处理器(2.20 GHz)上用 C 语言设计和实现。测试数据库由 20400 张具有不同倾斜角度的不同图像组成。这些图像来自不同的来源,如图刊、教科书、报纸等。图像内容从印刷文本(英语和
超级会员免费看
订阅专栏 解锁全文
7348

被折叠的 条评论
为什么被折叠?



