K8S 1.30环境中私有化部署 Ollama 和 DeepSeek-R1（671B模型）

最新推荐文章于 2025-10-10 21:16:56 发布

原创最新推荐文章于 2025-10-10 21:16:56 发布 · 1.5k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#kubernetes #容器 #云原生 #DeepSeek #DeepSeek R1 #AI大模型 #LLM

不同模型参数，配置要求如下：

一、理论介绍：

1. Ollama

Ollama 是一个由 Ollama 公司开发的 AI 模型工具。它专注于将大规模语言模型（如 GPT-3 和其他类似模型）进行本地化部署，特别是让这些模型可以在用户自己的硬件上运行，而不依赖于云计算资源。这使得用户可以更好地控制数据和模型的运行，而不必担心将敏感数据上传到外部服务器。

主要特点：

私有化部署

：Ollama 允许在本地机器上运行大型语言模型（如 GPT-3、BERT、T5 等），使得企业和个人可以避免数据外泄的风险。
支持多种语言模型

：Ollama 支持多种预训练的大型语言模型，能够为用户提供类似 GPT 或 T5 的推理能力。
高效性

：通过本地化部署，Ollama 能够在企业的硬件上运行，大大提升了对隐私和数据安全的控制能力。
易于集成

：提供简单的 API 接口，可以将其嵌入到现有应用程序或工作流中，简化 AI 模型的集成和管理。

使用场景：

隐私保护

：对于数据隐私要求严格的行业（如金融、医疗等），Ollama 提供了一个合适的本地化 AI 解决方案。
无需云端依赖

：在无法依赖云服务的环境中（例如离线工作场景），Ollama 能够帮助用户独立运行 AI 模型。

2. DeepSeek

DeepSeek 是一个与深度学习和智能搜索相关的项目，旨在提升人工智能对大规模数据集的处理能力，特别是在自然语言处理（NLP）和大规模文本数据搜索方面。

主要特点：

深度学习驱动的搜索

：DeepSeek 使用深度学习技术改进了传统搜索引擎的性能，能够在大量的非结构化文本数据中执行更智能的搜索和推理。
语义搜索

：与传统的基于关键字的搜索不同，DeepSeek 利用 NLP 技术进行语义搜索，通过理解上下文和语境，提供更精准的搜索结果。
大规模数据处理

：DeepSeek 特别适用于需要处理大规模文本数据的场景，比如新闻网站、大型电商平台或研究机构的文献库。
自学习能力

：DeepSeek 系统通常能够根据用户的行为和反馈进行自我调整，从而不断优化搜索和推荐效果。

使用场景：

企业搜索系统

：DeepSeek 可以应用于企业内部搜索系统，帮助用户在海量文档、知识库中快速找到所需信息。
推荐系统

：通过 DeepSeek 的智能语义搜索能力，可以应用于电商、社交媒体和内容平台的推荐系统，提供更符合用户兴趣的结果。
学术研究

：在需要处理大量科研文献的领域，DeepSeek 能够为研究人员提供更加精确和高效的文献搜索和分析工具。

总结：

Ollama

主要集中在本地化部署大型语言模型，帮助用户实现无需云端的 AI 模型部署，关注隐私保护和本地化计算。
DeepSeek

主要侧重于利用深度学习技术改进搜索和信息检索，通过语义理解优化传统的搜索引擎，特别适用于大规模数据集的处理和智能推荐。

这两个工具都在各自领域中推动了 AI 技术的应用和发展，Ollama 更专注于本地化的 AI 模型应用，而 DeepSeek 更注重语义搜索和智能信息检索。

二、实操练习：

1. 前提准备

硬件要求

由于部署的模型是大规模的671B参数模型，需要高性能计算资源。建议的硬件配置为：

计算资源：
- 至少 32 vCPU，推荐 64 vCPU。
- 至少 128 GB 内存，推荐 256 GB 内存。
- 每个节点最好配备 1TB SSD 或以上存储。
网络要求：
- 内部网络带宽至少 10Gbps，确保模型的分布式推理时网络不会成为瓶颈。

Kubernetes集群

Kubernetes版本：1.30
建议集群有多个节点，确保可以进行资源调度和扩展。
启用 GPU资源（如果需要加速计算）。

2. 获取模型Docker镜像

确保你有合适的 Ollama 和 DeepSeek-R1 的Docker镜像。如果这些镜像是公开的，直接从Docker Hub或其他容器仓库获取；如果是私有镜像，你需要提供正确的凭证和地址。

在这里插入图片描述

3. 准备Kubernetes配置文件

你需要创建Kubernetes的Deployment和Service配置文件，并确保配置好Persistent Volume (PV) 和 Persistent Volume Claim (PVC) 来存储模型数据。这里假设你已经通过Docker镜像准备好了相关镜像。

3.1 Persistent Volume (PVC) 配置

在Kubernetes中，PVC（Persistent Volume Claim）用于请求持久化存储。由于模型非常大，可能需要大容量的存储。

model-pvc.yaml：

apiVersion: v1
kind:PersistentVolumeClaim
metadata:
name:model-pvc
spec:
accessModes:
    -ReadWriteOnce
resources:
    requests:
      storage:2Ti# 根据模型大小设置存储容量

3.2 Ollama部署文件

ollama-deployment.yaml：

apiVersion: apps/v1
kind:Deployment
metadata:
name:ollama-model
spec:
replicas:1
selector:
    matchLabels:
      app:ollama
template:
    metadata:
      labels:
        app:ollama
    spec:
      containers:
        -name:ollama
          image:ollama/ollama-model:latest
          resources:
            requests:
              memory:"64Gi"
              cpu:"16"
            limits:
              memory:"128Gi"
              cpu:"32"
          ports:
            -containerPort:8080
          volumeMounts:
            -name:model-storage
              mountPath:/mnt/models
      volumes:
        -name:model-storage
          persistentVolumeClaim:
            claimName:model-pvc

3.3 DeepSeek-R1部署文件

deepseek-r1-deployment.yaml：

apiVersion: apps/v1
kind:Deployment
metadata:
name:deepseek-r1-model
spec:
replicas:1
selector:
    matchLabels:
      app:deepseek-r1
template:
    metadata:
      labels:
        app:deepseek-r1
    spec:
      containers:
        -name:deepseek-r1
          image:deepseek-r1/deepseek-r1-model:671b
          resources:
            requests:
              memory:"128Gi"
              cpu:"32"
            limits:
              memory:"256Gi"
              cpu:"64"
          ports:
            -containerPort:8081
          volumeMounts:
            -name:model-storage
              mountPath:/mnt/models
      volumes:
        -name:model-storage
          persistentVolumeClaim:
            claimName:model-pvc

3.4 服务配置

为了方便外部访问模型服务，配置Kubernetes Service来公开暴露服务。这里使用LoadBalancer类型的服务。

ollama-service.yaml：

apiVersion: v1
kind:Service
metadata:
name:ollama-service
spec:
selector:
    app:ollama
ports:
    -protocol:TCP
      port:8080
      targetPort:8080
type:LoadBalancer

deepseek-r1-service.yaml：

apiVersion: v1
kind:Service
metadata:
name:deepseek-r1-service
spec:
selector:
    app:deepseek-r1
ports:
    -protocol:TCP
      port:8081
      targetPort:8081
type:LoadBalancer

4. 部署到Kubernetes

通过以下命令将Kubernetes资源应用到集群中：

kubectl apply -f model-pvc.yaml
kubectl apply -f ollama-deployment.yaml
kubectl apply -f deepseek-r1-deployment.yaml
kubectl apply -f ollama-service.yaml
kubectl apply -f deepseek-r1-service.yaml

4.1 检查Pod状态`kubectl get pods`

确保所有Pod都正常运行。如果Pod未启动，可以使用 kubectl describe pod 来查看详细的错误信息。

4.2 检查服务状态`kubectl get svc`

通过该命令查看是否已成功创建服务，且它们暴露的端口（8080和8081）是否可以从外部访问。

5. 访问模型

5.1 获取外部IP

如果使用的是LoadBalancer类型的Service，你可以通过以下命令获取外部IP：

kubectl get svc

输出示例如下：

NAME                TYPE           CLUSTER-IP      EXTERNAL-IP    PORT(S)        AGE
ollama-service      LoadBalancer   10.100.200.1    <external-ip>  8080:30000/TCP 10m
deepseek-r1-service LoadBalancer   10.100.200.2    <external-ip>  8081:30001/TCP 10m

你可以在浏览器或者API客户端中使用这个外部IP访问模型接口，例如：

Ollama模型API

：http://:30000
DeepSeek-R1模型API

：http://:30001

5.2 调用模型接口

如果模型提供了RESTful API，你可以通过HTTP请求调用。例如，使用curl进行推理请求：

# 假设Ollama模型提供一个推理接口
curl -X POST http://<external-ip>:30000/inference -d '{"input": "your text input"}'

6. 监控和日志管理

6.1 查看Pod日志`kubectl logs`

查看运行中的Pod的日志，确保模型的推理过程正常。

6.2 使用Prometheus和Grafana监控

部署 Prometheus 来监控Kubernetes集群的资源使用。
配置 Grafana 仪表盘来实时展示模型的推理性能、延迟和吞吐量。

6.3 设置告警

使用Prometheus的告警功能来监控模型的健康状态，例如内存使用超过阈值时通过alertmanager触发告警。

总结

上述步骤展示了如何在Kubernetes 1.30集群中部署Ollama和DeepSeek-R1这类大规模的深度学习模型。需要注意，部署时要合理配置资源请求和限制，确保集群能够承载这些模型的计算和存储需求。通过服务暴露，外部应用可以访问这些模型提供的API进行推理。

DeepSeek无疑是2025开年AI圈的一匹黑马，在一众AI大模型中，DeepSeek以低价高性能的优势脱颖而出。DeepSeek的上线实现了AI界的又一大突破，各大科技巨头都火速出手，争先抢占DeepSeek大模型的流量风口。

DeepSeek的爆火，远不止于此。它是一场属于每个人的科技革命，一次打破界限的机会，一次让普通人也能逆袭契机。

DeepSeek的优点

read-normal-img

掌握DeepSeek对于转行大模型领域的人来说是一个很大的优势，目前懂得大模型技术方面的人才很稀缺，而DeepSeek就是一个突破口。现在越来越多的人才都想往大模型方向转行，对于想要转行创业，提升自我的人来说是一个不可多得的机会。

那么应该如何学习大模型

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

想正式转到一些新兴的 AI 行业，不仅需要系统的学习AI大模型。同时也要跟已有的技能结合，辅助编程提效，或上手实操应用，增加自己的职场竞争力。

大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。

read-normal-img

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

read-normal-img

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；
第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；
第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；
第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；
第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

read-normal-img