零代码编程：用ChatGPT批量识别图片PDF中的文字

最新推荐文章于 2024-09-06 22:36:47 发布

原创

最新推荐文章于 2024-09-06 22:36:47 发布 · 2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pdf

文章介绍了如何使用Python库和OCR技术，如tesseract、pytesseract以及poppler，来批量识别PDF文件中图片格式的文本。首先安装必要的软件和库，然后通过pdf2image转换PDF页面为PNG图片，再用pytesseract进行文字识别，最终将识别出的中文文本保存为文件。

有些PDF页面是图片格式，要怎么批量把图片中的文字识别出来？借助ChatGPT可以轻松完成这个任务。

首先要安装一些相关的软件和Python库。

安装tesseract-ocr（OCR）软件，最新版的是tesseract-ocr-w64-setup-v5.3.0.20221214.exe ，下载地址是https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.3.0.20221214.exe

要从图片中识别字符，就得使用光学字符识别（OCR）技术。

注意安装中文字库。

然后把D:\Program Files (x86)\TesseractOCR 添加到环境变量。

安装OCR库：：pip install pytesseract

安装poppler-windows软件。Poppler 是一个用来生成 PDF 的 C++ 类库，从 xpdf 继承而来。它使用了很多先进的类库例如 freetype 和 cairois 来达到更好的输出效果，同时也提供了一组命令行工具包。下载地址：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AIGCTribe

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【ChatGPT模型精调训练】AI 大模型精调 Fine-Tuning （微调）训练图文代码实战详解

AI天才研究院

03-09

2433

选择预训练模型：选择一个在类似任务上已经训练好的模型作为起点。数据准备：准备并预处理你的数据集，使其适合模型的输入格式。微调：在你的特定数据集上继续训练模型，调整模型的权重。评估：评估微调后模型的性能。应用：将微调后的模型部署到实际应用中。Fine-Tuning（精调）是指在预训练模型的基础上，对模型进行微调，使其适应特定任务。预训练模型通常在大量无标签数据上进行训练，以学习通用的语言表示。通过 Fine-Tuning，我们可以在较小的标签数据集上训练模型，以便模型能够更好地解决特定任务。

【ChatGPT核心原理实战】手动求解 Transformer：分步数学示例 | Solving Transformer by Hand: A Step-by-Step Math Example

AI天才研究院

12-22

4018

手动求解 Transformer：分步数学示例Understanding Transformers: A Step-by-Step Math Example — Part 1了解 Transformer：分步数学示例 — 第 1 部分I understand that the transformer architecture may seem scary, and you might have encountered various explanations on…我知道变压器架构可能看起来很可怕，并且

参与评论您还未登录，请先登录后发表或查看评论

tesseract-ocr-w64-setup-v5.3.0.20221214.exe

12-19

Tesseract是一个开源的OCR（Optical Character Recognition，光学字符识别）引擎，可以识别多种格式的图像文件并将其转换成文本

Tesseract Python 图片文字识别入门

TOOZOOY的博客

06-29

555

拷贝到C:\Program Files\Tesseract-OCR\tessdata。1、安装tesseract。3、注意环境变量是否设置好。4、python 测试识别。

【OCR软件进化史】文字、表格、公式图片识别并与ChatGPT交互

PythonWeb实践

02-01

465

2022年，后面学而思的接口更新，也就百度的还算稳定。顺便提一下，文字、表格的识别准确度，百度是远超国内其他互联网公司。这一点我在2019年经过半年的时间求证、验证。2023年5月左右，笔者已经用上CHatGPT，觉得这是个机会，这个时候还没有GPTS。同时，可以看到这个时期的版本已经集成了umi-OCR、QQ截图离线版、CAD转dxf。第1版做的比较粗糙，就是封装了百度的OCR接口，用户需要自己申请相关的KEY。第2版取消了百度OCR的接口，对用户来说，多一步设置，路径就增加一步。

【和ChatGPT对话】帮助新手批量提取图片文字信息到文件

02-17

3867

今天的另外一个案例是模拟有一定编程基础（新新手）的电脑工作者，让 ChatGPT 处理一些图片数据，需求复杂一些。具体任务是帮助识别学生缴费图片的信息，便于复核。然后 …… ChatGPT 继续使用 python，活干得不错。后面换用 go 语言的过程中，由于 ChatGPT 每次会话字符串长度限制，输出不完整，结果有瑕疵，出现了两个 main 函数，然后修复了。然后使用腾讯云服务，同样原因同样问题，但是已经把最关键的调用部分写得很清楚了，追问了一下流程图也是对的。就不细究了。

chatgpt赋能python：Python抓取PDF内容：一个全面的指南

a1sssssb的博客

05-27

859

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

怎么在chatgpt导入100份文献PDF，生成国内外研究现状

最新发布

10-17

在ChatGPT中直接导入并分析大量文献PDF目前无法实现（ChatGPT本身不支持文件上传及批量处理），但可以通过以下**分步骤方案**高效完成该任务： --- ### **核心解决方案流程** #### **第一步：文献预处理（关键步骤...

ChatGPT多模态功能All in One

海天瑞声的博客

11-08

1333

此外，在会议上还推出了ChatGPT的自定义功能，用户可以无需任何编程知识，便可根据特定需求打造个性化的ChatGPT版本，称之为GPTs（多个GPT），这将作为即将推出的GPT商店（GPT Store）的一部分，实现人人都能零代码打造专属的ChatGPT。ChatGPT-4 与 DALL-E 或类似图像生成模型的集成可以实现无缝体验，用户可以在与 ChatGPT-4 的对话中描述图像，然后系统可以使用该描述来使用单独的图像生成图像，图像生成模型。这使得它能够提取当前信息，为用户提供更准确和最新的响应。

chatgpt赋能python：Python实现多关键词搜索PDF文件

「虚幻私塾」

06-15

876

tesseract-ocr安装包和中文语言包网盘下载

02-23

tesseract-ocr安装包和中文语言包网盘下载 tesseract-ocr安装包和中文语言包网盘下载

ChatGPT 调教指南：从 PDF 提取标题并保存

龙哥盟

10-01

2078

我没有加任何的答案提示，看看 GPT 如何反应。它应该是知道 PDF 没有任何语义信息，一切标题或者正文全是文本框。它里面有个错误，应该是，我改了过来。这个逻辑完全不对，我试了以下我手头的一个文字 PDF（三眼文集.pdf），第二页doc[1]的第一行就是标题。看看能不能提取这个文本块的确是标题，但是type不是 1，根本提取不出来。

验证码拦不住机器人了！谷歌AI已能精准识别模糊文字，GPT-4则装瞎求人帮忙

量子位

03-31

337

丰色发自凹非寺量子位 | 公众号 QbitAI“最烦登网站时各种奇奇怪怪（甚至变态）的验证码了。”现在，有一个好消息和一个坏消息。好消息就是：AI可以帮你代劳这件事了。不信你瞧，以下是三张识别难度依次递增的真实案例：而这些是一个名为“Pix2Struct”的模型给出的答案：全部准确无误、一字不差有没有？有网友感叹：确定，准确性比我强。所以可不可以做成浏览器插件？？不错，有人表示：别看这几个案例...

评价基于GPT和Bert的方法并用于生信文本识别PPI

白景屹的博客

04-30

2285

微调和提示范式用于文本PPI提取

OCR识别图片中的文字

foolishdault的专栏

02-16

533

2、把安装目录设置的到PATH环境变量中，这样就可以全局调用命令。识别的结果会输出到result.txt文件中。1、安装Tesseract OCR。

【免费下载】 Tesseract OCR 5.3.0 安装包

gitblog_09767的博客

09-06

1341

Tesseract OCR 5.3.0 安装包【下载地址】TesseractOCR5.3.0安装包 Tesseract 是一个开源的 OCR（Optical Character Recognition，光学字符识别）引擎，能够识别多种格式的图像文件，并将其转换为文本。本仓库提供了一个适用于 Windows 64 位系统...

ChatGPT大升级，文档图像识别领域迎来技术革新