作者:[夔嶷]
平台:优快云
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR
参考教程:Apifox 技术指南

一、前言
DeepSeek-OCR 是由 DeepSeek AI 推出的开源 OCR 模型,专为高精度文档识别与结构化输出而设计。它不仅能识别图像中的文字,还能将其转换为 Markdown、保留布局结构,甚至解析图表内容。本文将手把手教你如何在本地部署 DeepSeek-OCR,并使用 vLLM 或 Transformers 两种方式进行推理。
二、系统与硬件要求
系统环境
- 操作系统:Linux / Windows / macOS(推荐 Linux)
- Python 版本:3.12.9
- CUDA 版本:11.8+
- PyTorch 版本:2.6.0
硬件建议
- GPU:A100-40G 或同等性能(如 RTX 4090、3090)
- 显存:≥24GB(处理 PDF 或大图时建议 ≥40GB)
- 内存:≥16GB
- 存储:≥10GB(模型约 5–8GB)
三、项目克隆与环境搭建
1. 克隆项目
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR
2. 创建 Conda 环境(推荐)
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
3. 安装 PyTorch(CUDA 11.8)
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

最低0.47元/天 解锁文章
1634

被折叠的 条评论
为什么被折叠?



