Arrow-RCNN——基于深度神经网络的流程图识别分析

最新推荐文章于 2025-04-23 09:39:57 发布

哇哇九号

最新推荐文章于 2025-04-23 09:39:57 发布

阅读量2.2k

点赞数

分类专栏：深度学习文章标签：人工智能算法深度学习

转载请注明

本文链接：https://blog.youkuaiyun.com/bengyanluo1542/article/details/119521189

版权

深度学习专栏收录该内容

31 篇文章

订阅专栏

本文探讨了流程图识别的现状，焦点在于Arrow-RCNN的创新架构，它通过多分支预测流程节点和连接关系。文章提到的改进点和实际应用价值，展示了深度学习在文档识别中的重要补充。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

研究意义

当前的文档识别技术，在文字识别、表格识别、公式识别、段落识别等都有较多研究，这些技术的组合，组成了最终的文档识别全流程。但在文档中，仍存在一类表达形式——流程图。由于流程图的结构多变、形式多样、连接关系可能比较复杂等原因，对流程图识别的工作还比较少。但同样作为文档中重要的一部分，在一些场景下，对流程图的识别将显著提升文档识别的最终效果。
基于此，我们对流程图的识别进行了一些调研，并基于此进行了一些有益的的尝试。在这里我们将简要介绍一篇我们调研过程中遇到的一篇相对比较有代表性的文献《Arrow R-CNN for Flowchart Recognition》（Arrow-RCNN），其基于 Fast-RCNN 架构，提出通过输出三个分支，对流程图中的流程图框及连接关系进行预测。
流程图的元素包括各种不同形状的流程节点框（它们的形状决定了它们的含义）、也包括流程图节点框之间的连接关系，这些连接关系组建了最终的流程图的拓扑结构。
为了解决流程图识别这一问题，Arrow-RCNN 在Faster-RCNN 的基础上，增加一个关键点预测分支，利用这个分支对最终的连接关系进行预测。总体结构如下图所示。据作者说，这也是第一篇利用深度学习进行流程图结构识别的文献。
Arrow-RCNN 识别结果示意

网络结构

文章的主要贡献在于多分支的检测头的设计。通过输入基网络输出的 7×7×256 特征，经过全连层输出到三个分支。网络头结构示意图如下。

Arrow-RCNN 输出头示意图

关键点编码

文章默认每个连接线包括一个带箭头的点和一个不带箭头的点，因此使用一个 4-d 向量对一个连接线上的两个点进行表征。同时，为了便于进行回归，基于连接线 box 对连接点坐标间归一化，如下式所示：

损失函数

关键点回归及边框回归均使用 smooth L1 损失：

最终的总损失是分类、边框回归、关键点回归三者的综合：

关键点分配

得到输出的关键点（连接点）之后，需要将这些关键点分配到不同的节点框。这里作者直接将关键点分配到距离最近的那个节点框。由于检测框是水平矩形，这个距离也很好计算。

识别结果举例

作者举例，相对复杂的结构也能做到正确识别。

识别结果举例

可能的改进点

文章提出了一个新颖的架构尝试解决流程图识别的问题，从现实的流程图情况来看，仍然存在一些改进点：

基网络可以更新到性能更强的网络；
检测头和关键点回归头都可以用更新的方法，包括更新的损失函数；
多损失比例的问题；
现实中，流程图的节点可能是多输入多输出的，需要进行支持；
流程图的连接线可能有交叉、连接线可能也很长、连接线有实现虚线等不同类型、连接点有带箭头或者不带箭头等多种类型，需要视情况进行支持；
从美观的角度来说，最后还需要对节点框、连接线等进行对齐，这一系列后处理也是一个比较复杂的事情。

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

哇哇九号 您的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。