昨天接到一个写asp的朋友信息,他领导让他写一个识别增值税发票的代码,把电子发票pdf文件上传后,能把所有信息识别完导入数据库。看似简单的需求可把我这位朋友难为到了,昨晚非拉着我去吃喝洗,一条龙伺候,我都给他说了,这是小事,有吃饭的时间就写完了,他非不听,非要排面,整的我一晚上晕头转向的,今天研究了半天,说难不难,说不难吧又好多坑,先说遇到的坑,由于是接入了百度的ocr,他的开发文档做的全靠猜,绕来绕去的,搞两小时。然后上传pdf文件,又遇到坑了,需要先转成二进制后,在去识别,直接识别不行,这个坑又玩了1个多小时,用了半天才搞定,有这个需求的可以直接拷代码,对于asp用户来说,搞这些确实有些难了,但是asp用户量还很大,估计用的人比较多,不说了,上代码:
下面就是asp写的ocr识别增值税发票的代码,不光是增值税发票,专票、全电发票(新版全国统一电子发票,专票/普票)、卷票、区块链发票等全可以识别:
Set objStream = Server.CreateObject("ADODB.Stream")'创建了一个ADODB.Stream对象,并将其赋值给objStream变量。
' 设置Stream对象属性
objStream.Type = 1 ' adTypeBinary,将objStream对象的Type属性设置为1,表示二进制数据。
objStream.Open'打开objStream对象。
objS