1.安装Ollama
Ollama 是一个开源项目,专注于提供本地化的大型语言模型(LLM)部署和运行解决方案。它旨在让用户能够在自己的设备上轻松运行类似 GPT 的大型语言模型,而无需依赖云服务或高性能服务器。Ollama 的设计目标是简化 LLM 的使用流程,使其对开发者和普通用户更加友好。
Ollama链接在这里

下载安装完成之后
在cmd中验证 是否安装成功

桌面右下角也会有运行的图标
2.下载deepseek模型
ollama run deepseek-r1:7b
我这里下载的7b模型
在本地部署 DeepSeek 或其他大型语言模型时,显卡(GPU)的配置对模型的运行效率和性能至关重要。不同的模型对显存(VRAM)和计算能力有不同的要求。以下是一些常见的模型类型及其对应的显卡配置建议:
1. 小型模型(如 1B-3B 参数)
- 模型示例
:GPT-2 Small、LLaMA-7B(量化版)、DeepSeek 小型模型。
- 显存需求
:4GB - 8GB。
- 推荐显卡
:
:适合入门级用户或轻量级任务,如文本生成、简单对话等。
2. 中型模型(如 7B-13B 参数)
- 模型示例
:LLaMA-7B、LLaMA-13B、GPT-NeoX-3B、DeepSeek 中型模型。
- 显存需求
:8GB - 16GB。
- 推荐显卡
:
:适合中等规模的任务,如复杂文本生成、对话系统、代码生成等。
3. 大型模型(如 20B-70B 参数)
- 模型示例
:LLaMA-30B、LLaMA-65B、GPT-J-6B、DeepSeek 大型模型。
- 显存需求
:16GB - 24GB。
- 推荐显卡
:
:适合高性能需求的任务,如大规模文本生成、复杂推理、研究实验等。
4. 超大型模型(如 100B+ 参数)
- 模型示例
:GPT-3(175B)、BLOOM(176B)、DeepSeek 超大型模型。
- 显存需求
:40GB 及以上。
- 推荐显卡
:
:适合企业级应用、研究机构或需要极高计算能力的任务。
5. 量化模型
- 模型示例
:量化版的 LLaMA、GPT-J、DeepSeek 量化模型。
- 显存需求
:量化技术可以显著降低显存需求。
:
:适合资源有限的设备,同时保持较高的性能。
6. CPU 运行
- 模型示例
:极小型模型或量化模型。
- 显存需求
:无需独立显卡,依赖系统内存(RAM)。
- 推荐配置
:
:适合没有独立显卡的设备,但运行速度较慢。
显卡选择的其他考虑因素
- 显存带宽
:显存带宽越高,数据传输速度越快,适合处理大规模模型。
- CUDA 核心数
:CUDA 核心越多,计算能力越强。
- 多卡支持
:对于超大型模型,可以使用多卡并行(如 NVIDIA NVLink 或 PCIe 连接)。
- 功耗和散热
:高性能显卡通常功耗较高,需要良好的散热解决方案。
总结
- 入门级
:GTX 1650/1660、RTX 3050(4GB-8GB)。
- 中端级
:RTX 3060/3080、RTX 4060 Ti(8GB-16GB)。
- 高端级
:RTX 3090/4090、A100(16GB-24GB+)。
- 企业级
:多卡 A100/H100(40GB+)。