DeepSeek-OCR 本地部署使用教程（附完整环境配置与推理示例）

最新推荐文章于 2025-11-05 15:50:18 发布

原创

最新推荐文章于 2025-11-05 15:50:18 发布 · 5.3k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#ocr #python #计算机视觉

作者：[夔嶷]
平台：优快云
项目地址：https://github.com/deepseek-ai/DeepSeek-OCR
参考教程：Apifox 技术指南

在这里插入图片描述

一、前言

DeepSeek-OCR 是由 DeepSeek AI 推出的开源 OCR 模型，专为高精度文档识别与结构化输出而设计。它不仅能识别图像中的文字，还能将其转换为 Markdown、保留布局结构，甚至解析图表内容。本文将手把手教你如何在本地部署 DeepSeek-OCR，并使用 vLLM 或 Transformers 两种方式进行推理。

二、系统与硬件要求

系统环境

操作系统：Linux / Windows / macOS（推荐 Linux）
Python 版本：3.12.9
CUDA 版本：11.8+
PyTorch 版本：2.6.0

硬件建议

GPU：A100-40G 或同等性能（如 RTX 4090、3090）
显存：≥24GB（处理 PDF 或大图时建议 ≥40GB）
内存：≥16GB
存储：≥10GB（模型约 5–8GB）

三、项目克隆与环境搭建

1. 克隆项目

git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
cd DeepSeek-OCR

2. 创建 Conda 环境（推荐）

conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr

3. 安装 PyTorch（CUDA 11.8）

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

夔嶷

关注关注

12
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

DeepSeek-OCR安装部署文档和避坑指南，包含大多数人遇到的安装报错问题

网易搬砖头

10-22

1634

DeepSeek-OCR安装部署指南摘要：本文详细介绍高性能OCR工具DeepSeek-OCR的安装流程，支持多语言识别和复杂场景文字提取。系统要求包括Linux/Windows/macOS操作系统，推荐NVIDIA显卡(显存≥6GB)和≥16GB内存。安装步骤涵盖：1)创建conda虚拟环境；2)安装PyTorch等核心依赖；3)解决常见问题如CUDA版本冲突、模型下载慢等。提供GPU内存不足等问题的解决方案，帮助开发者快速部署OCR服务。（149字）

前沿多模态模型开发与应用实战3：DeepSeek-VL2多模态理解大模型算法解析与功能抢先体验

PaddlePaddle

03-20

2318

基于飞桨多模态大模型开发套件PaddleMIX，详细解读多模态理解模型DeepSeek-VL2。

参与评论您还未登录，请先登录后发表或查看评论

DeepSeek-OCR实战指南：从零开始部署大模型驱动的OCR系统（必收藏）

2401_84495872的博客

11-05

2192

DeepSeek-OCR是DeepSeek团队开源的基于大语言模型的OCR系统，将文档图像压缩成视觉token序列，由LLM完成结构化理解与生成。文章详细介绍了其部署方法(vLLM/Transformers)、实用提示词技巧，并对比评测了三款社区WebUI：neosun100的即用型界面、rdumasia303的Docker化全栈应用和fufankeji的文档解析Studio。最后提供了从PoC到上线的完整落地建议，帮助开发者根据需求选择合适方案，优化提示词与吞吐性能，将DeepSeek-OCR集成到业务流

人工智能-大语言模型-基于deepseek 的OCR

02-15

DeepSeek OCR 是一个基于Deepseek AI模型的智能文字识别系统，旨在通过图像识别技术提取图像中的文本信息。该项目使用了 DeepSeek API 进行 OCR 处理，支持多种上传方式，包括文件上传和 URL 上传。

DeepSeek-OCR 本地部署实践（适合新手、windows环境）

hiteamsoft的博客

10-24

2586

windows下deepseek-ocr安装部署详细教程

消费级的DeepSeek-OCR本地部署实战来了！赶紧行动起来吧~

weixin_42485090的博客

10-22

8650

DeepSeek-OCR是一款高效的开源OCR模型，通过创新的视觉token压缩技术显著减少了文本处理时的token数量，同时保持较高准确率。该模型仅3B大小，支持本地部署（如RTX4060 8G显存设备），处理单页PDF仅需数秒。部署步骤包括环境配置（CUDA 11.8+、PyTorch 2.6.0）、模型下载（HuggingFace/ModelScope）及推理测试。实际应用中，输入图片后模型能有效解析内容并输出结构化结果。其核心优势在于平衡了效率与性能，适合大规模文档处理任务。

一文搞懂大模型Agent工具调用：从Function Calling到MCP与A2A协议！

2401_84494441的博客

10-22

754

文章详细解析了大模型Agent的三种工具调用方法和协议：Tool Calling（工具调用）与Function Calling（函数调用）是概念与实现的关系；Function Calling是具体的调用机制，而MCP（Model Context Protocol）是为Function Calling提供标准化、安全、可扩展的通信框架；A2A（Agent-to-Agent）协议则规范了多个Agent之间的协作。三者共同构成了大模型Agent调用外部工具和实现协作的技术基础。

DeepSeek-OCR项目部署流程并采用Web-ui的方式部署DeepSeek-OCR

guoqingru0311的博客

10-21

6083

DeepSeek-OCR项目部署流程并采用Web-ui的方式部署DeepSeek-OCR Web-ui的方式部署DeepSeek-OCR项目工程

DeepSeek-OCR大模型完全指南（超详细）从原理到实战应用，收藏这一篇就够了！

2401_85375298的博客

10-25

1719

DeepSeek-OCR是将OCR重新定义为多模态压缩问题的开源模型，通过将页面渲染为图像并压缩为少量视觉token，减少7-20倍token数量。其两阶段架构(DepthEncoder视觉编码器和MoE解码器)在保留布局的同时高效处理长文档，基准测试显示10倍压缩比下达97%准确率。这一"上下文光学压缩"技术为LLM支持百万token上下文窗口提供了新思路，显著提升处理效率。DeepSeek-OCR是DeepSeek-AI最新发布的开源模型，它将光学字符识别(OCR)重新定义为多模态压缩问题。

图片文本识别OCR+DeepSeekapi实现提取图片关键信息

2302_80981029的博客

04-11

5000

图片文本识别OCR+DeepSeekapi实现提取图片关键信息

DeepSeek-OCR本地部署教程：DeepSeek突破性开创上下文光学压缩，10倍效率重构文本处理范式

SJJS_1的博客

10-23

2522

DeepSeek-OCR 是深度求索（DeepSeek）于 2025 年 10 月 20 日开源的一款革命性 OCR 模型，其核心创新在于提出上下文光学压缩（Contexts Optical Compression）技术，通过视觉模态实现文本信息的高效压缩与解压。该模型以 3B 参数量实现了 SOTA 级性能，按照官方的说法，单张 A100-40G 显卡日处理能力超 20 万页数据，这为长文本处理和大模型优化提供了全新范式。

DeepSeek-OCR本地部署指南：高效文本识别模型实践

”明确指出该资源聚焦于如何将 DeepSeek-OCR 模型部署到本地计算环境中，并提供完整的实现代码支持，意味着用户可以在不依赖云端服务的前提下，在自有硬件设备上运行该 OCR 系统，保障数据隐私与处理自主性。...

ubuntu怎么安装deepseek-ocr

最新发布

11-21

- 步骤2: 下载模型权重（使用ModelScope下载模型到本地目录） - 步骤3: 克隆项目仓库 - 步骤4: 创建conda环境并激活 - 步骤5: 安装推理依赖（包括requirements.txt中的包和flash-attn） 3. 提供核心调用示例...

0代码，5分钟，搭建出企业级文档处理MCP Agent

z551646的博客

05-27

905

文档质量决定了大模型理解的上限。当你正在构建知识库或者搭建文档审核相关的Agent，可以考虑将TextIn MCP Server嵌入到你的搭建工作流中，成为你的文档处理引擎。

DeepSeek-OCR

qq_56757193的博客

10-31

1234

一、研究目的与核心思想 DeepSeek-OCR 是一次关于 “通过光学二维映射（optical 2D mapping）压缩长上下文” 的初步探索。它的目标是让模型能高效地从高分辨率输入中提取关键信息，把大量文本压缩成更少的视觉 token，从而实现高效的 OCR（光学字符识别）与长文本理解。二、模型结构模型包含两个主要组件： DeepEncoder：核心引擎，负责在高分辨率输入下保持低激活量（即计算量低），同时实现高压缩率，把大规模文字信息压缩为少量视觉 token。

《新手必看！保姆级教程：本地部署DeepSeek + WebUI可视化 + 数据投喂训练AI，轻松打造你的专属AI模型！》

血法师的专栏

02-15

2027

🔥【新手福音】手把手教你本地部署DeepSeek + WebUI可视化 + 数据投喂训练AI，轻松打造专属AI模型！🔥 还在为AI模型部署头疼？别担心！这篇保姆级教程专为小白打造，从零开始带你玩转DeepSeek！无论你是AI新手还是技术爱好者，都能轻松上手！ 🎯 **你将学到：** ✅ 如何在本地快速部署DeepSeek ✅ 使用WebUI实现可视化操作，告别复杂命令行 ✅ 数据投喂与模型训练技巧，打造你的专属AI ✅ 超详细步骤+避坑指南，小白也能秒变

别只拿 DeepSeek-OCR 当识字工具，它其实能干更多！

weixin_42485090的博客

10-23

2036

这个项目是我用工具花了不少时间折腾出来的，主要是结合 DeepSeek-OCR 模型的强大特性，想做一个能在本地自由玩转 OCR 的小工具。通过集成 DeepSeek-OCR，不仅能精准识别图片里的文字，还能对图像内容进行描述，效果相当不错。目前项目已经完全开源，大家可以直接拉取代码在本地部署，省去重复开发的麻烦，开箱即用！🚀基于 DeepSeek-OCR 模型的 OCR 识别平台，集成 FastAPI 后端与 React 前端，提供实时流式识别、多语言界面、对象定位等功能。✨多种解析模式。

DeepSeek-OCR深度解析（超详细）从光学压缩到代码实现，一篇就够了！

Everly_的博客

10-27

2102

0. 前言。