你的免费本地 PDF 转 Markdown 神器! 一键部署

https://github.com/zyfhg/PDFMD_CPU

我就是这个项目的作者!

今天我要给大家种草我开发的 PDF 转 Markdown 工具 ——PDFMD_CPU!

你是否厌倦了那些超过固定页码或者大小就需要付费的 PDF 转换工具?
💳 那 PDFMD_CPU 是你的不二之选!

它基于开源 Marker 项目,专为 CPU 环境优化,即使在 4 核 8G 的硬件配置下也能流畅运行,完全不需要 GPU!💻❄️**

一键部署,轻松上手

我为大家准备了一键部署脚本哦!只需简单三步,就能搞定环境搭建,然后就可以批量转换 PDF 成 MD 格式的文件啦!🎉💻

运行以下命令一键安装环境:

chmod +x install.sh run.sh && ./install.sh

激活虚拟环境:

source marker_env/bin/activate

开始转换:

./run.sh

精准转化,具体案例

要转化的PDF扫描件示例:

转化后,MD文件内容:

强大功能,满足多样需求

多文件批量处理: 支持多个文件同时转换,轻松应对大量文档。

页面范围指定: 你可以指定转换特定页面范围,如“1-5”,实现精准转换。

多语言支持: 简体中文、繁体中文、英语一网打尽,语言包还可扩展,满足不同语言需求。

Gemini 多 API Key 利用: 支持配置多个 API Key,自动切换,实现“白嫖”式转换,突破 API 限制。

智能重试机制: 遇到问题自动重试,确保任务顺利完成。

详细识别记录: 生成完整转换统计和错误追踪日志,方便你随时查看转换情况。

**

简单易用,配置选择

**

使用轻松 深入了解 run.sh 脚本里的参数配置,简单又实用哦!

PDF_FILES=(“04.pdf”) 📁 把多个 PDF 文件放进数组,就能一次性转换啦!例如:

PDF_FILES=(“file1.pdf” “file2.pdf”)

PAGE_RANGES=(“1-5”) 📄 想转部分页面?直接写页码范围,如“1-5”,只转第 1 到 5 页。

OUTPUT_DIR=“./output” 📁 转换后的文件放哪儿?默认是当前目录的“output”文件夹,可随意更改。

LOG_FILE=“./conversion.log” 📝 转换日志在哪?默认是“conversion.log”,帮你记录转换过程。

CSV_FILE=“./conversion_stats.csv” 📊 转换统计文件是“conversion_stats.csv”,能看转换详情。

BATCH_SIZE=10 ⚙️ 内存大小可调,控制单次处理页数,默认是 10 页。

MAX_RETRIES=2 🔄 转换失败自动重试,默认重试 2 次。

RETRY_DELAY=5 ⏱️ 两次重试间隔 5 秒。

LLM_API_KEYS=(“key1” “key2”) 🔑 配置多个 LLM API 密钥,超过上限,系统自动切换。

LLM_MODEL=“gemini-2.0-flash” 🤖 支持多种模型:gemini-2.0-flash (需 Google API)、llama3.2-vision (需本地部署)、gpt-4o-mini (需 OpenAI 官方 API)。

LLM_BASE_URL=“https://generativelanguage.googleapis.com/v1beta” 🌐 LLM 服务基础地址,默认是 Google 的 API 地址。⚠️ 链接因网络原因可能解析不成功,请检查链接并适当重试。

MEMORY_MAX=“6.5G” 🖥️ 内存上限默认 6.5G。

MEMORY_HIGH=“6G” ⚠️ 内存接近 6G 时触发警戒。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值