基于 FCN-biLSTM 的增值税发票识别与处理
1. 引言
增值税发票是企业财务管理中的重要文件,广泛用于会计、开票和税务凭证。其格式由国家税务总局严格控制,但处理这些发票通常依赖于手工操作,效率低下且容易出错。为了提高处理效率并降低成本,企业需要一种自动化、无人监督的增值税发票处理系统。近年来,随着图像处理技术的发展,尤其是文本检测和文本识别技术的进步,自动化处理增值税发票成为可能。本文介绍了一种结合全卷积网络(FCN)和双向长短期记忆网络(biLSTM)的增值税发票识别与处理系统,旨在实现高效且准确的发票处理。
2. 相关工作
增值税发票的识别与处理系统本质上包括两个任务:文本检测和文本识别。文本检测旨在从图像中精确定位文本区域,而文本识别则负责将检测到的文本转换为可读的形式。以下是相关领域的研究进展:
2.1 文本检测
文本检测算法可以分为两类:水平文本检测和倾斜文本检测。对于水平文本检测,许多方法使用基于深度神经网络的技术直接在图像中检测文字,类似于目标检测方法。田等人开发了一个连接文本提议网络(CTPN),用于准确地定位图像中的文本行。对于倾斜文本检测,SegLink 和 Lyu 提出的方法通过预测文本段及其连接来处理自然场景中的长文本,而角点定位和区域分割方法则用于检测任意方向的场景文本。
2.2 文本识别
文本识别方法主要分为两类:基于特征提取的方法和基于注意力机制的方法。Shi 等人提出了一种新颖的神经网络架构,将特征提取、序列建模和转录整合到一个统一的框架中。而 Lee 等人则使用带注意力模型的递归循环神经网络(RNN)进行无需词典的自然场景图像光学字符识别(OCR)