deepin linux UOS AI 使用 deepseek-r1 30B

我们用 ollama 下载 deepseek-r1 3B  执行命令:

$ ollama pull models/unsloth/DeepSeek-R1-Distill-Qwen-32B-GGUF

下载完成后  我们就要重新更改目录和文件了

deepseek-r1/gguf  (这是目录结构)

然后我把 gguf文件 更名成 DeepSeek-R1.gguf (就是目录下最大的那个文件)

接着我创建 config.json 

{
"verison":"0.1",
"architectures":["Qwen2ForCausalLM", "LLM"],
"bin":"DeepSeek-R1.gguf",
"license":["LICENSE"],
"templates":{"default":"template"},
"params":{"--ctx-size":"8192","--temp":"0.1"}
}

接着我们再创建 template 

{% if exists("System") %}<|im_start|>system
{% if length(System) > 0 %}{{ System }}{% else %}You are a helpful assistant.{% endif %}<|im_end|>
{% endif%}{% if exists("Prompt") %}<|im_start|>user
{{ Prompt }}<|im_end|>
{% endif %}{% if exists("Tool") %}<|im_start|>tool
{{ Tool }}<|im_end|>
{% endif %}<|im_start|>assistant{% if exists("Response") %}
{{ Response }}<|im_end|>{% endif %}

 这些文件都在deepseek-r1/gguf 这个目录下。

最后我 把整个deepseek  移到   /home/用户名/.local/share/deepin-modelhub/models/

好了  这样你打开 UOS AI 就可以尽情使用了  我主要用于让ai写代码

### 本地化部署 RAG 架构与 DeepSeek 模型于统信 UOS 系统 #### 1. 部署环境准备 为了在统信 UOS 上实现 RAG 和 DeepSeek 的本地化部署,首先需要确保系统的开发环境已准备好。这包括 Python 开发工具链、必要的依赖库以及硬件加速支持。 - **Python 版本**: 推荐使用 Python 3.9 或更高版本[^4]。 - **虚拟环境管理**: 使用 `venv` 创建独立的 Python 虚拟环境以隔离项目依赖项。 ```bash python3 -m venv rag_env source rag_env/bin/activate ``` #### 2. 安装必要依赖项 RAG 实现通常涉及自然语言处理 (NLP) 工具和向量数据库的支持。以下是一些核心依赖项: - **Transformers 库**: 提供对 Hugging Face 模型的支持。 - **Sentence Transformers**: 用于生成高质量的嵌入表示。 - **FAISS 或 ChromaDB**: 向量化存储和高效检索解决方案。 - **DeepSpeed 或 OpenVINO**: 性能优化框架。 安装这些依赖项可以通过 pip 进行: ```bash pip install transformers sentence-transformers faiss-cpu chromadb deepspeed openvino-dev ``` 如果计划利用 GPU 加速,则应额外安装 CUDA 支持的相关驱动程序和库[^5]。 #### 3. 下载并加载 DeepSeek 模型 DeepSeek 是一种高性能的大规模语言模型系列,其权重可以从官方资源获取。考虑到网络限制,在国内环境中推荐通过可信镜像站点完成下载。 - 访问 [Mix688](http://mix688.com/) 获取适用于中国用户的模型压缩包链接。 - 解压后将其路径映射至代码中指定位置以便后续调用。 ```python from transformers import AutoTokenizer, AutoModelForCausalLM model_name_or_path = "/path/to/deepseek-model" tokenizer = AutoTokenizer.from_pretrained(model_name_or_path) model = AutoModelForCausalLM.from_pretrained(model_name_or_path) ``` #### 4. 配置 RAG 流程 基于上述提到的技术栈构建完整的 RAG 管道主要包括以下几个阶段: - 数据预处理: 将原始文档转换成适合机器学习算法使用的格式. - 文档分割: 把长篇幅的内容拆分成较小单元便于单独编码. - 嵌入计算: 利用 Sentence Transformer 对每一段落创建固定维度特征向量. - 存储索引建立: 使用 FAISS 或 ChromaDB 来保存所有段落及其对应向量形成可查询的知识图谱. 下面展示了一个简化版的例子说明如何集成以上组件: ```python import numpy as np from sentence_transformers import SentenceTransformer import chromadb # 初始化句子编码器 encoder_model = 'all-MiniLM-L6-v2' embedder = SentenceTransformer(encoder_model) # 设置Chroma客户端连接参数 chroma_client = chromadb.PersistentClient(path="/data/chromadb") # 新建集合命名为my_collection collection = chroma_client.create_collection(name="my_collection") def add_to_index(texts): embeddings = embedder.encode(texts).tolist() ids = [f"id_{i}" for i in range(len(embeddings))] collection.add( documents=texts, metadatas=[{"source": f"doc{i}"} for i in range(len(embeddings))], ids=ids, embeddings=embeddings ) add_to_index(["example text one", "another example"]) ``` #### 5. 整合 DeepSeek 至 RAG 中 当知识库已经就绪之后就可以把之前加载好的 DeepSeek LLM 结合进来作为最后一步生成环节的一部分参与整个工作流当中去。这里给出一个简单的伪代码片段示意这种组合方式可能的样子: ```python query = input("Enter your question here:") results = collection.query(query_texts=[query], n_results=3) context = "\n".join([r['document'] for r in results['documents'][0]]) prompt_template = """Answer the following based on context:\n{ctx}\nQuestion:{qst}\nAnswer:""" full_prompt = prompt_template.format(ctx=context,qst=query) input_ids = tokenizer(full_prompt, return_tensors='pt').input_ids.to('cuda') outputs = model.generate(input_ids=input_ids,max_new_tokens=100) response = tokenizer.decode(outputs[0]) print(response.strip()) ``` #### 性能优化建议 针对实际应用场景下的效率考量提出几点改进建议如下所示: - 批量操作减少单次请求开销; - 缓存机制避免重复计算相同内容的结果; - 并行执行提升吞吐率; ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值