TextIn文档解析表格处理模型优化,显著提升表格解析性能

TextIn通用文档解析表格处理优化升级

目录

1

2

3

前端功能新增:支持表格编辑、导出Excel

SDK工具包:支持表格处理


近期,TextIn通用文档解析最新推出表格处理优化版本。

此前版本中,表格解析处理针对有线表格与无线表格预先分类,并基于框线进行模型预测。在运行过程中,我们发现,分类错误问题对表格解析准确率有负面影响。

本次优化主要改善了表格识别效果,以统一方案替代有线表格与无线表格分类处理方法,减少了级联损失,大幅度提升表格全对率。

通用文档解析链接:https://www.textin.com/market/detail/pdf_to_markdown

表格全对率指标包含了对文本全对率结构准确度的测量。文本全对率评估的是,解析出的表格中每个单元格的文本是否与原始表格完全一致,没有遗漏、错误或多余的字符。结构准确度测量模型对表格结构的预测是否正确,排除错行、漏行或合并单元格错误等问题。

根据TextIn测试指标,一个表格中,文本或结构解析有任何问题,即判为错误。表格全对率不仅考虑了单元格的内容,还考虑了表格的层次结构和布局,以确保信息的完整性与准确性。

对于此前表格处理模型,技术团队诊断:解决过于依赖逻辑位置预测与跨cell填充问题,能够进一步提升表格引擎性能。

TextIn技术团队在当前表格解析模型及后处理算法的基础上,结合模型预测的位置信息和逻辑信息,引入轴对齐处理思路,避免仅依赖逻辑信息预测的问题,减少单元格划分错误的情况;通过上下文信息与行列查询,解决跨行列cell填充问题;基于表格内容OCR匹配,实现物理位置修正。经测试,优化版本表格全对率有显著提升。

我们将通过几个案例,直观展示本次表格解析性能优化的表现。

<
评论 22
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值