多类型表格检测与结构识别及高速神经网络架构搜索技术
多类型表格检测与结构识别(Multi-Type-TD-TSR)
在表格处理领域,传统方法在检测表格边界框时不进行分类,而Prasad等人的方法会按边框对表格进行额外分类。但由于其分类仅考虑两种表格类型,且对有边框和无边框表格的定义与我们的略有不同,所以我们未采用该方法。
有边框表格的TSR算法
有边框表格的TSR算法基于Prasad等人的同名算法,利用腐蚀和膨胀操作提取无文本的行列网格单元图像。具体步骤如下:
1. 图像二值化与反转 :将图像转换为像素值为0(黑色)或1(白色)的二值表示,然后反转这些值,得到前景(线条和字符)为白色、背景为黑色的表格图像。
2. 应用腐蚀核 :分别对反转后的图像应用水平和垂直腐蚀核kh, kv ∈R²。腐蚀核一般是细长的垂直和水平条带,长度大于整体字体大小但小于最小网格单元的大小,且宽度不超过最小表格边框宽度。这样的腐蚀操作能去除表格中的所有字体和字符,同时保留表格边框。
3. 应用膨胀操作 :由于腐蚀操作会使线条比原始表格边框短,为恢复原始线条形状,对两个腐蚀后的图像分别应用相同大小的膨胀操作,得到垂直和水平线条的图像。
4. 图像合并与反转 :使用按位或操作合并两个图像,并再次反转像素值,得到光栅单元图像。
5. 提取边界框 :使用轮廓函数在网格单元图像上提取每个单个网格单元的边界框。