Ocr with abbyyR

本文介绍如何利用abbyyR包实现从网页抓取图片并进行OCR文字识别的过程,包括图片下载、设置应用程序、提交识别任务及结果下载等步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

下载package

install.packages("abbyyR")
## devtools::install_github('soodoku/abbyyR')
library(abbyyR)
# 设置工程目录
project.dir <- "E:/Temp/"
rm(list = ls())

抓取图片

library(rvest)
library(dplyr)

url = "http://www.c-gec.cn/a/zuixinhuodong/2017/0803/2531.html"
imageUrl <- read_html(url) %>%
  html_nodes(xpath = "//div[@id='entrybody']/div/img/@src") %>%
  html_text

for(item in imageUrl){
  curl_download(item, destfile=paste0(getwd(),"/raw/",basename(item)))
}

建立App

首先要在http://ocrsdk.com/建立app应用,获得Id和password

setapp(c("ROcrApp1", "63WTSkZa8OZu2fQGqNh*****"))
getAppInfo()

清空App空间

all_tasks <- listTasks()
for (i in 1:nrow(all_tasks)) 
  deleteTask(as.character(all_tasks$id[i])) 

监控提交任务

filename <- paste0(project.dir,dir(project.dir, recursive=TRUE))
library(progress)
pb <- progress_bar$new(format = "  downloading [:bar] :percent\n",
                        total = length(filename), 
                        clear = FALSE, width= 60)
tracker <- data.frame(filename=NA, taskid=NA)


# Loop
j <- 1
for(file in filename){
  print(file)
  tracker[j,] <- c(basename(file), as.character(abbyyR::submitImage(file_path=file)$id))
  j <- j + 1
  # Prg. bar
  pb$tick()
  Sys.sleep(1/100)
}

执行Ocr

for (i in 1:nrow(tracker)) 
  processDocument(tracker$taskid[i], language="ChinesePRC", profile="documentConversion", exportFormat="xlsx")

任务状态

i <- 1
while(TRUE){
    i <- nrow(listFinishedTasks())
    if (i == length(filename)){
        print("All Done!")
        break;
    }
    Sys.sleep(2)
}

下载文件

finishedlist <- listFinishedTasks() %>%
  mutate(status = as.character(status)) %>%
  filter(status == "Completed")
results      <- merge(tracker, finishedlist, by.x="taskid", by.y="id")
library(curl)
setwd(project.dir)
for(i in 1:nrow(results)){
  print(i)
  curl_download(as.character(results$resultUrl[i]), destfile=paste0(getwd(),"/res/",sub(".png","",results$filename[i]),".xlsx"))
}

Ocr识别效果

原始图

这里写图片描述

识别结果

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值