https://github.com/zyfhg/PDFMD_CPU
我就是这个项目的作者!
今天我要给大家种草我开发的 PDF 转 Markdown 工具 ——PDFMD_CPU!
你是否厌倦了那些超过固定页码或者大小就需要付费的 PDF 转换工具?
💳 那 PDFMD_CPU 是你的不二之选!
它基于开源 Marker 项目,专为 CPU 环境优化,即使在 4 核 8G 的硬件配置下也能流畅运行,完全不需要 GPU!💻❄️**
一键部署,轻松上手
我为大家准备了一键部署脚本哦!只需简单三步,就能搞定环境搭建,然后就可以批量转换 PDF 成 MD 格式的文件啦!🎉💻
运行以下命令一键安装环境:
chmod +x install.sh run.sh && ./install.sh
激活虚拟环境:
source marker_env/bin/activate
开始转换:
./run.sh
精准转化,具体案例
要转化的PDF扫描件示例:
转化后,MD文件内容:
强大功能,满足多样需求
多文件批量处理: 支持多个文件同时转换,轻松应对大量文档。
页面范围指定: 你可以指定转换特定页面范围,如“1-5”,实现精准转换。
多语言支持: 简体中文、繁体中文、英语一网打尽,语言包还可扩展,满足不同语言需求。
Gemini 多 API Key 利用: 支持配置多个 API Key,自动切换,实现“白嫖”式转换,突破 API 限制。
智能重试机制: 遇到问题自动重试,确保任务顺利完成。
详细识别记录: 生成完整转换统计和错误追踪日志,方便你随时查看转换情况。
**
简单易用,配置选择
**
使用轻松 深入了解 run.sh 脚本里的参数配置,简单又实用哦!
PDF_FILES=(“04.pdf”) 📁 把多个 PDF 文件放进数组,就能一次性转换啦!例如:
PDF_FILES=(“file1.pdf” “file2.pdf”)
PAGE_RANGES=(“1-5”) 📄 想转部分页面?直接写页码范围,如“1-5”,只转第 1 到 5 页。
OUTPUT_DIR=“./output” 📁 转换后的文件放哪儿?默认是当前目录的“output”文件夹,可随意更改。
LOG_FILE=“./conversion.log” 📝 转换日志在哪?默认是“conversion.log”,帮你记录转换过程。
CSV_FILE=“./conversion_stats.csv” 📊 转换统计文件是“conversion_stats.csv”,能看转换详情。
BATCH_SIZE=10 ⚙️ 内存大小可调,控制单次处理页数,默认是 10 页。
MAX_RETRIES=2 🔄 转换失败自动重试,默认重试 2 次。
RETRY_DELAY=5 ⏱️ 两次重试间隔 5 秒。
LLM_API_KEYS=(“key1” “key2”) 🔑 配置多个 LLM API 密钥,超过上限,系统自动切换。
LLM_MODEL=“gemini-2.0-flash” 🤖 支持多种模型:gemini-2.0-flash (需 Google API)、llama3.2-vision (需本地部署)、gpt-4o-mini (需 OpenAI 官方 API)。
LLM_BASE_URL=“https://generativelanguage.googleapis.com/v1beta” 🌐 LLM 服务基础地址,默认是 Google 的 API 地址。⚠️ 链接因网络原因可能解析不成功,请检查链接并适当重试。
MEMORY_MAX=“6.5G” 🖥️ 内存上限默认 6.5G。
MEMORY_HIGH=“6G” ⚠️ 内存接近 6G 时触发警戒。