DeepSeek R1 学习笔记

最新推荐文章于 2025-03-25 10:12:25 发布

freellf

最新推荐文章于 2025-03-25 10:12:25 发布

阅读量734

点赞数 11

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/freellf/article/details/146038874

版权

DeepSeek为了方便大众的使用，同时提供了6个蒸馏版本

DeekSeek使用方式

1.大众方式：

网页版：DeepSeek

App版：手机各大应用商店下载安装DeepSeek-AI智能对话助手

2.专业用户

开发者：调用API + DeepSeek服务器网址：DeepSeek

接口文档地址：首次调用 API | DeepSeek API Docs

第三方平台：

硅基流动，是一家AI模型服务商，提供R1、V3满血版以及DS多尺寸模型。当然，也包括GLM、Qwen、Hunyuan、Yi、FLUX、Llama、SD等知名模型。

硅基流动统一登录

超算互联网：由科技部牵头，供全民免费使用，目前提供了7B、14B和32B的蒸馏版

一些云：

百度智能云：千帆大模型平台-百度智能云千帆

华为云：硅基流动统一登录

阿里云：阿里云登录 - 欢迎登录阿里云，安全稳定的云计算服务平台

华为昇腾社区：共建智能世界云底座-华为云

腾讯云：腾讯云产业智变·云启未来 - 腾讯

火山引擎：DeepSeek R1 模型部署快速指南--机器学习平台-火山引擎

联通云：联通云—安全数智云

京东云：京东云

总结：

想要满血版，推荐官网、硅基，就是有点卡；

想要稳定，推荐纳米、秘塔、超算、小艺、英伟达，速度很快，很流畅；

想练动手能力，API keys+Chatbox，你值得拥有；

手里有魔法，推荐Poe、Lambda、Perplexity，好用、耐用，大佬都在用。

3.高阶版

在GitHub直接拉模型，本地算力布署.

特点：小模型的蒸馏; 离线使用，数据安全，完全免费

工具：Ollama + ChatBox / Anything LLM

对话使用一些细节：DeepSeek

1.深度思考：

只简单的了解时，不用点深度思考，比如一些显尔易见的，平时生活中的一过程，或数学题解答等，这时使用的模型是V3。如有复杂的思维过程，创意或策划等很复杂的过程时，点击"深度思考(R1)",可和"联网搜索"联合使用等，

2.模型需要数据训练，如果问的问题与时间有关的，可能数据还没有训练，点击"联网搜索"效果比较好，如果时间比较靠前，已训练过的话，只用"深度思考(R1)"模型比较好

3.专属问题：通过上传附件，来生成专属的结果，如AI个人简历，个人知识库，公司财表，企业报表分析等。

DeepSeek-R1提示词的使用原则、技巧、避坑与场景

提示词的两个关键问题：

首先：真正理清脑海中的想法：

其次：是否能够通过文字准确传达这个想法

推理模型的提示词的共识：

共识1：清空之前的提示词模板

DeepSeek 特点是没有提示词技巧

共识2：仍需要告诉AI足够多的背景信息

干什么？

给谁干？

目的是？(要什么)

约束是？(不要什么)

共识3：用乔哈里视窗分析你到底该告诉AI多少信息

1.人知道,AI知道的---简单说，如能表明身份职业等的限写定词，就没有必要再对其进行补充说明，不包含新兴的，

2.人知道，AI不知道的-------喂模式

几种典型方式：

1.举例法：最常见的是通过举例来实现，展示一个具体例子时，实际上是在让AI感知这个例子中的模式(pattern),并期待它能够通过自身的泛化能力来理解和应用这个模式。

2.定义字典：在待定场景中，比如需要使用15个独有术语时(比如一些"业里黑话")，可以专门设置一下定义模块，将这个“定义字典”输入给AI，这也是输入模式。

3.RAG(检索增强生成)技术：面对AI未知的数据时，使用t先检索(本地+联网查资料)-->再生成(写答案)的方式，本质上也是在输入模式。

3.人不知道，AI知道----提问题

提示词的核心技巧就在于如何提出好问题

"提问"本身完全可以作为一门独立的学科来研究。提问能力，也将为一项核心竞争力。

4.人不知道，AI也不知道----开放聊

如科研前沿

共识4：可以用大白话方式交流，注意提供足额的信息

共识5: 是否需要指定思考步骤，取决于你是否希望AI严格执行. 原则：给模型目标，而不是任务。

DeepSeek使用技巧

技巧1：要求明确; 万能提示词模板你是谁 + (背景信息) + 你的目标

你是谁：非常的有用

背景信息：告诉他你为什么做这件事，你面临的现实背景是什么或问题是什么。

你的目标: 说清楚它帮你做什么，做到什么程度。

核心：用人话清晰的表达出你的需求。

技巧2：不要定义过程

技巧3：明确受众

技巧4：联网功能 DeepSeek-R1，是为数不多的，可以联网的推理大模型。

技巧5：补充额外信息上传PDF/PPT作为知识基底.(最多不超过50个，每个不超过100MB)。

推理 + 上传附件，可心做更多本地化、私密化的东西，比发你自己的知识库或者内部资料。让其基于自有知识库进行推理和思考。

技巧6：上下文的联系 vs 清除记忆

上下文记忆：DeepSeek R1目前提供的上下文只有64k token长度(官方API文档的说明，实际聊天对话的长度待确认)，对应到中文字符大概是3-4万字。适用于文档分析、长对话等场景。

三点注意：

注意1：上下文记忆有限

注意2：输出长度有限，多数大模型会将输出长度控制在4k或者8k,也就是单次对话最多2-4千中文字符

注意3：如何清除之前的记忆

解决方法：开启新的对话

输入：回复此条对话前，请忽略前面所有的对话。

技巧7：反馈与迭代优化

情况1：对初始的回答进一步追问、优化。

情况2：针对某一个问题，挑毛病或辩证思考，评估方案和决策。

技巧8：复杂问题，分步拆解

DeepSeek使用避坑

1.冗长提示词污染关键词过长的描述可能导致焦点偏移，过度思考，甚至逻辑凌乱。推理模型时代，只需要命中那个关键词即可。

2.避免复杂句式和模糊词语否定句式增加理解成本，未指定处理方式和精度要求。

3.避免“分步骤思考”要求 R1模型通过强化学习，自动生成完整思维链。

4.过度角色扮演 R1本身就是专家模型&专家思维

DeepSeek使用场景

场景1：数学&物理题 (R1强于理工科)

场景2：代码能力涵盖：代码编写、代码优化、分析和解释代码(加注释)、调试代码&修复问题等

场景3：写作&文案能力

场景4: 文本摘要

场景5：指定输出格式 mermaid、svg、Xmind等可以通过文本表示的图表可以通过AI生成，在提问时明确要求以某种图表的语法格式回复即可。如生成流程图、甘特图、xmind、ppt

场景6：日常生活

场景7：不同职业场景

场景8：简历生成

场景9: 模拟面试

5.指令模型 vs 推理模型

理解大语言模型的工作原理与局限，能更好的知道AI可完成任务的边界。

指令模型(通用模型、传统模型、instruct model)

依赖用户指令来生成内容或执行任务。

代表： DeepSeek - v3, GTP-4o、豆包、Qwen2.5、Llama-3.1

特点：step by step

推理模型(reasoning model):专注于逻辑推理、问题解决的模型、能够自主处理需要多步聚分析、因果推断或复杂决策的任务。比如数学、编程、科学问题。

代表：DeepSeek-R1、 OpenAI-o1、OpenAI-o3-mini

特点：大模型更像是一个“职场精英"，给出明确的目的，提供丰富的上下文，剩下的让模型自行发挥(向模型要结果)

DeepSeek-R1 目前是唯一联网的推理模型。

AI综合比较：

DeepSeek：功能全面，操作简单，响应快，普通用户的首先

GPT-4: 功能强大，但更适合专业人士，普通用户用起来有点浪费

文心一言：中文理解能力不错，适合写作文，总结文章，但功能相对单一，

豆包：说话打娱乐和社交，适合聊天，讲笑话，实用性弱。

4大部署方案详解

方式1：调用API + DeepSeek服务器

创建自己的应用的方式

或者

直接使用某客户端访问(官方推荐)：awesome-deepseek-integration/README_cn.md at main · deepseek-ai/awesome-deepseek-integration · GitHub

方式2：第三方平台

推荐：秘塔搜索，硅基流动

cherryStudio: Cherry Studio 官方网站 - 全能的AI助手

国家超算中心：超算互联网

方式3: 本地算力部署

本地部署就是自己电脑部署DeepSeek-R1模型，使用本地的算力。

特点：此方案不用联网

适合：有数据隐私方面担忧的人或者保密单位根本就不能上网的。

主要瓶颈：内存 + 显存的大小。

版本选择: DeepSeek-R1-Distill Models

下载ollama : Ollama

Chrome插件Page Assist或Anything LLM

ChatBox, Cherry Studio

常用命令：

/? 获取帮助

/bye 退出

/ollama list 安装模型

/ollama -v 获取版本

使用客户端：

CherryStudio的下载：Cherry Studio 官方网站 - 全能的AI助手

配置: ollama

api地址：http://localhost:11434/v1/

修改models路径:

服务器部署：满血，404G, 建议大于500G

DeepSeek-R1训练过程与原理：

核心：主要亮点在于出色的数学和逻辑推理能力，区别于一般的通用指令AI模型。其训练方式结合了强化学习(RL)与监督微调(SFT),创造了一种高效训练，高推理能力AI模型的方法。

训练过程

过程1：冷启动阶段：

收集R1-Zero的输出，并进行人工标注和格式化。

使用带有长CoT的few-shot prompting.

直接提示模型生成带有反思和验证的详细解答。

过程2：面向推理的强化学习

过了解决训练过程中可能出现的语言混杂问题，引入语言一致性奖励(Language Consistency Reward) 机制。

过程3：拒绝采样与监督微调

利用训练好的RL模型进行拒绝采样，生成新的SFT数据，涵盖了其他领域的数据。

RL模型(相当于考过年级第一的你)现在要做的是：

->生成候选数据。

->拒绝低质量样本

->高质量SFT数据

过程4：面向全场景的强化学习

第二阶段的强化学习训练，涵盖所有类型的任务，此外，R1采用了不同的奖励信号和提示分布，针对不同的任务类型进行了优化。

逻辑推理等任务，采用基于规则的奖励，开放式问答、创意写作等采用基于模型的奖励

DeepSeek-R1总结：

中间推理模型生成：通过推理导向的强化学习( Reasoning - Oriented RL), 直接生成高质量的推理数据，减少人工标注依赖

通用强化学习优化:基于帮助性和安全性奖励模型，优化推理与非推理任务表现，构建通用性强的模型。

最终成果：DeepSeek-R1 将 R1-Zero的推理能力与通用强化学习的适应能力相结合，成为一个兼具强推理能力和任务广泛适应性的高效AI模型。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。