识别效果:


结论:
deepseek-ocr 官方库提供了 transformers和vllm两种推理解析方式,transformers仅提供了图片识别的示例,vllm提供了图片识别和pdf识别两种示例。vllm仅可在linux系统下部署使用。
如果只需要图片识别,windows和linux两种系统都可以。如果需要pdf识别,则需要使用linux系统部署。或者windows系统下部署后,自己编写代码处理PDF转图片和批量调用的图片解析的逻辑。(deepseek-ocr解析pdf前,也是转成了图片)。
电脑环境:
windows 11、显卡 5060
deepseek-ocr官方代码库:https://github.com/deepseek-ai/DeepSeek-OCR
需要安装的内容:
git、python、Anaconda、cuda、pytorch(torch、torchvision、torchaudio、numpy)
我电脑使用的版本如下

环境安装中因为CUDA版本不匹配,模型识别不了,反复切换过几次cuda、troch、flash_attn的版本。
这些软件的版本需要根据个人电脑显卡型号确定,一定要根据自己的电脑配置情况下载匹配版本,下边会详细介绍。
安装部署过程
1、安装git
为了拉取deepseek-ocr的项目代码(如果电脑已经安装跳过,安装系统可以使用的版本即可)
https://git-scm.com/install/windows
从官网下载对应电脑程序,一步步安装即可。
2.获取代码
从电脑上想安装deepseek的文件夹下输入cmd

在打开的命令窗口中,输入 git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
3.安装python 3.12.9
deepseek-ocr 推荐的python版本是3.12.9,建议安装此版本
https://www.python.org/downloads/windows/
下载自己电脑适合的版本

最低0.47元/天 解锁文章
1634

被折叠的 条评论
为什么被折叠?



