在数字化办公时代,我们习惯了用Excel生成精美图表,却很少思考一个反向问题:如何将报告中的图表重新转化为可分析的原始数据?这个看似简单的需求,实际上对技术提出了极高要求。合合信息旗下的TextIn文档解析平台,通过四大核心步骤破解了这一难题,让图表数据的逆向提取从"不可能"变为"一键完成"。
第一步:图表检测与定位——在文档海洋中精准"捕获"目标
图表识别的首要任务是在复杂文档中锁定图表边界。早期技术依赖OpenCV的边缘检测,但面对PDF扫描件、多栏排版或图文混排场景时常出现漏检。2016年后,深度学习目标检测模型成为主流方案,TextIn采用级联检测策略——先用轻量级模型快速筛选候选区域,再通过高精度模型二次验证,即使面对手绘草图的模糊边界也能准确定位。
这一步骤直接决定了后续解析的成败。合合信息的版面分析算法结合物理与语义信息,不仅能识别文字、表格和图片的位置,还能处理带有多栏排版的专业期刊或财报,确保机器获得的是和人类阅读一样"图文并茂"的完整信息。
第二步:图表类型分类——读懂视觉语言的"方言"
识别出图表位置后,系统需要判断它属于哪种类型。饼图、折线图、柱状图、散点图、雷达图……每种图表都有独特的数据提取逻辑。TextIn支持十余种专业图表的精准分类,这背后是卷积神经网络(CNN)和视觉Transformer的协同作战。
ResNet、EfficientNet等模型擅长提取图表的高级特征,而视觉Transformer通过局部窗口注意力机制,能有效处理视觉上相似的图表——比如区分堆叠柱状图与分组柱状图。TextIn在三个数据集上的对比实验表明,Transformer架构在图表分类任务上具有明显优势。
第三步:图表结构分析——解剖数据的"骨骼"
这是技术难度最高的环节。系统需要解析坐标轴范围、数据点空间位置及颜色编码逻辑。传统霍夫变换只能检测直线和圆形,面对变形图表束手无策。TextIn采用生成式学习方法,从图表的布局、线条、颜色、标记等多个维度进行深度建模。
对于"柱形图+折线图"这类复合式图表,TextIn的图表解析模块不仅能精准区分不同类型图表的数据,还能识别图例位置并完成颜色匹配。即使是没有明确数值标注的堆叠柱状图,系统也能通过像素测量提供预估值。
第四步:数据重建与映射——从像素到Excel的"魔法转换"
最后一步是将视觉元素转化为结构化数据。TextIn通过线性插值算法将像素位置转换为实际数值,完成坐标轴映射;利用颜色和纹理相似度匹配,实现图例与数据系列的语义绑定。
更令人惊喜的是,TextIn能够将解析结果以Excel格式精准输出,并转化为大模型可理解的Markdown格式。这意味着用户不仅能获得原始数据表格,还能直接用于后续的数据分析和AI问答任务。
技术演进:从规则驱动到生成式AI
图表识别技术经历了三个时代:1990年代的规则驱动依赖人工模板,只能处理标准化印刷图表;2005年后机器学习引入SVM和HMM,但仍需人工定义特征;2016年至今,深度学习实现端到端解析,TextIn等产品更是将大规模预训练模型应用于图表解析,处理复杂度呈指数级提升。
如今,TextIn已服务于医疗、制造、金融、教育等多个领域,累计识别超100亿张图片,识别准确率达99.7%。从河西走廊牧民采购的发电机数据,到金融机构分析的财报图表,这项技术正在让"数据逆向还原"成为各行业的标配能力。
5万+

被折叠的 条评论
为什么被折叠?



