学习DeepSeek - R1 概念篇和基础使用篇（1）

最新推荐文章于 2026-01-04 08:59:53 发布

原创最新推荐文章于 2026-01-04 08:59:53 发布 · 1.4k 阅读

43 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

部署运行你感兴趣的模型镜像

概念篇

1.推理大模型与普通大模型

1.1 什么是推理模型


不同角度	观察到的结果	带来的影响
从直观感受来看	在输出最终回答之前，模型会先输出一段思维链内容，以提升最终答案的准确性。	过程透明
从发展历史来看	用自己的方法复现 OpenAI o1 模型	错误定位能力提升（用户可指
从架构上来看	集成规则引擎增强推理的可靠性,通过中间步骤（如数学推理中的分步计算）提升容错性,引入回溯机制修正错误推理分支,输出推理轨迹增强可解释性	分步呈现比黑箱输出更易验证（尤其关键领域如医疗诊断）
从开源上来看	遵循 MIT License，开源周：“显卡超频”，“降低延时”，“通用矩阵”，“负载均衡”，“数据加速”等	可私有化部署，并提升Infra能力

1.2 推理模型与通用大模型的应用场景有什么差异

并非所有计算都适配推理模型

推理大模型（如 DeepSeek - R1、OpenAI O1）会把复杂代码任务拆解为多步骤逻辑链。这种分步推理模式与人类程序员的思考过程相似，有助于降低代码逻辑错误的几率。
普通大模型（如 GPT - 4、DeepSeek - V3）更倾向于单次推理直接生成完整代码，可能会忽略中间逻辑验证环节，致使代码片段看似合理，实则存在隐藏缺陷。

可解释性在一次性问题上并无价值

推理大模型会输出详细的推理轨迹，这一特性对于开发者理解代码逻辑、教学场景以及代码评审都具有重要意义。
普通大模型通常直接返回最终结果，不过时效性更佳。

在代码生成过程中，需权衡资源消耗与响应效率

推理大模型由于要执行多步推理，生成代码的响应时间较长（约为普通模型的 3 - 5 倍），且计算资源消耗更高。例如，DeepSeek - R1 在生成复杂算法代码时，会激活更多专家模块（MoE 架构）以支持深度思考。
普通大模型响应速度更快，适合生成简单代码片段（如数据清洗脚本），但难以应对需要深度分析的场景。

1.3 推理大模型在开发领域是否可以完全替代普通大模型？

推理大模型通过分步逻辑验证和自我纠错机制，显著提升了代码生成的可靠性和可解释性，尤其适合复杂系统开发；而普通大模型凭借快速响应特性，仍是简单脚本编写的有效工具。
未来两者可能形成互补协作模式：推理模型负责架构设计与核心算法，普通模型辅助实现基础模块


场景	推理大模型优势场景	普通大模型适用场景
算法实现	动态规划、图论等复杂算法设计	简单数据处理脚本生成
代码优化	性能调优（时间复杂度分析、并行化改造）	基础代码格式标准化
系统设计	微服务架构拆分、接口协议设计	单功能模块实现
异常处理	多线程死锁检测、分布式系统容错机制	基础异常捕获语法生成

1.4 访问推理大模型的方式

Chat对话方式访问DeepSeek R1
基于API访问 DeepSeek R1

1.5 如何从实用的角度来评测模型


关键指标	含义
首 Token 时间	• 用户体验：决定用户首次感知的响应速度
总耗时时间	• 服务效率：直接影响业务吞吐量与终端用户等待时长。 • 资源利用率：关联计算成本与规模化能力。
输出 tokens/s	"• 处理能力：衡量系统实时性能与业务承载上限。
• 成本效益：	高吞吐量可摊薄单位请求成本。"
共调用 tokens	• 资源消耗：直接关联算力成本与预算规划。

**本质影响：**优化运营效率、控制成本、提升用户体验、支持规模化决策
小结

DeepSeek - R1 在需要逻辑推理的场景生成结论和稳定性优于通用大模型
基于 Web 访问会因为资源紧张，出现无法访问等情况
借助公有云采用 API 方式能缓解无法访问的问题，仍要注意数据隐私和数据安全

2.如何最大程度发挥DeepSeek R1的优势

2.1 推理模式擅长的领域

DeepSeek-R1在数学、代码、自然语言推理等任务上，性能比肩OpenAI o1正式版。
思维链的可解释性： 通过生成清晰的推理步骤，直观展示复杂问题的解决逻辑，提升决策透明性。
结构化推理能力：将复杂问题分解为多层级逻辑框架，实现高效、系统化的分步推理与分析。
动态推理控制： 根据输入动态调整推理路径，灵活优化策略以应对实时变化或不确定性问题。
模型蒸馏：将复杂模型的推理能力高效迁移至轻量化架构，平衡性能与资源消耗，适配低算力场景。

2.2 思维链的可解释性

案例一：供应链成本优化
场景背景
某汽车零部件制造企业，年运输货物量120万吨，2023年物流成本达￥1.2亿元，同比上涨18%。
核心问题:
· 部分运输路线成本异常（如路线A单次运输成本比行业均值高25%）；
· 客户对交付时效要求提升（需从7天缩短至5天）。
历史运输记录表（含路线、货量、成本、时间）:


路线	单次货量（吨）	距离（公里）	运输方式	单次成本（¥）	耗时（小时）
A	50	800	公路	35,000	18
B	30	600	公路	18,000	12
C	40	1200	铁路	24,000	24

在这里插入图片描述
DeepSeek-R1 vs 通用大模型对比表


维度	DeepSeek-R1	通用大模型
决策依据	数据聚类 + 动态成本模型，定位绕行导致的燃油损耗	基于历史语料库的泛化建议
方案细节	明确拆分铁路 / 公路段距离、成本、时效	仅提出 “多式联运” 概念
可执行性	提供中转操作指南及风险控制阈值	无落地细节
企业收益	节省¥220万 / 年 + 时效提升29%	无法验证实际效果

核心结论：
DeepSeek-R1 通过结构化数据分解（如聚类分析）和动态成本建模，将抽象问题转化为可执行的优化动作（如缩短公路段 200 公里）；通用模型缺乏对业务参数（燃油权重、中转耗时）的量化能力，导致建议难以落地。

2.3 结构化推理能力

场景背景
某银行需评估一家新能源电池制造企业（年营收￥8亿）的贷款申请（￥1.2亿），需综合判断其偿债能力、行业风险及供应链稳定
核心挑战：

企业财务数据复杂（多子公司、海外业务占比30%）；
行业政策波动大（如2023年锂价下跌40%）；
供应链依赖关键原材料（钴）进口，地缘政治风险高

2.4 动态推理控制

在这里插入图片描述

2.5 模型的蒸馏

**满血版：**杭州深度求索人工智能基础技术研究有限公司开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时，通过 DeepSeek-R1 的输出，蒸馏了 6 个小模型开源给社区，其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
在这里插入图片描述
蒸馏： 大模型蒸馏（Knowledge Distillation）是一种将大型复杂模型（教师模型）的“知识”迁移到小型轻量模型（学生模型）的技术。其核心目标是让学生在保持较高性能的同时，显著降低计算和存储成本。
a. 类比： 如同经验丰富的厨师（教师模型）通过传授火候掌控、调味技巧等隐性知识，让学徒（学生模型）无需完全复制操作细节，也能做出接近师傅水平的菜肴。
b. 蒸馏过程：
i. 教师模型训练：先训练一个高性能的大模型（如 DeepSeek-R1）
ii. 知识传递：教师模型对输入数据生成“软标签”（概率分布），而非简单的答案（硬标签），使学生模型学习到决策逻辑
iii. 学生模型优化：学生模型（如 Qwen）通过模仿教师模型的输出和中间特征，调整自身参数，最终实现轻量化部署
c. 注意：蒸馏后的模型仍属于 Qwen 底层架构（如网络结构、参数规模），但融合了 DeepSeek 的知识。DeepSeek-R1 的数学推理能力通过软标签和特征对齐迁移到 Qwen 中，使其在相同架构下表现更优。本质上蒸馏是“知识迁移”而非“架构替换”。类似于“学生继承了老师的解题思路，但大脑结构未变”

小结：

推理模型擅长可解释性和分步骤执行
资源受限时，可以采用蒸馏的方法降低计算和存储成本

基础使用篇

1.推理模型的提示词设计原则与优化策略

1.1 官方建议的提示词

GitHub - deepseek-ai/DeepSeek-R1

在这里插入图片描述

1.2 官方提示库

Prompt Library | DeepSeek API Docs
在这里插入图片描述

1.3.提示词公式


原则	优化表达	设计建议
使用口语表达	不必刻意设计思维链	直接说出你想要的效果，避免专业术语
目标导向沟通	先说“要解决什么问题”	交代场景
动态难度调节	用“简单版/进阶版”区分	通过对话来设置开关

1.4 提示词对比


场景	通用大模型	推理大模型
小红书推广文案	你现在是小红书美妆赛道爆款写作专家，具备3年美妆行业内容运营经验，擅长将专业成分转化为通俗易懂的种草文案。品牌方计划在618大促期间推广一款玻尿酸面膜，目标人群是25 - 35岁职场女性，产品核心卖点是72小时长效保湿 + 便携次抛包装。请生成3个带emoji的爆款标题，并撰写500字正文。正文需包含使用场景（如出差急救）、成分解析（需用“玻尿酸小分子”等通俗表达）、价格锚点（原价199元/盒，活动价买二送一）。采用闺蜜聊天口吻，每段不超过3行，适当穿插“咱就是说”“救命这个真的绝了”等平台热词，重点语句用💧✨🔥等表情符号强化记忆点。首轮生成后，针对敏感肌群体增加“医美后修复”使用场景描述，调整标题中的数字具象化（如“28天逆袭水光肌”→“7天告别沙漠皮”）。	目标：为某国产抗老面霜创作带货文案核心需求：突出“平替雅诗兰黛”概念（价格仅1/3）植入实验室检测数据（28天胶原蛋白提升17.3%）设计3个互动话题：#你的第一瓶抗老霜# #国货真香现场#创作要求：开篇用“25+女生集合！”等唤醒句式中段穿插before/after对比图描述结尾设计“戳左下角get同款”转化钩子避坑指南：避免“顶级成分”等夸大宣传词，改用“实验室实测有效”等合规表述

小结：

推理模型的提示词范式不同于通用大模型
不必再遵循提示词公式，交代清楚核心需求和背景比公式更重要

2. 思维链、One-Shot等技巧对提示词效果的影响

2.1 思维链对模型生成效果的影响


通用大模型	推理大模型
不使用 CoT 的提示词效果使用 CoT 的提示词效果	Reasoning 模型自带 Long CoT

一些测试题


类型	题目
经济利润比例计算	A商品利润增加20%后与B商品利润减少10%后的值相等。求原A商品利润是B的百分之多少？
工程合作问题	甲、乙、丙三人共同完成一项工程。甲单独完成需18小时，乙需24小时，丙需30小时。若三人按“甲→乙→丙→甲→乙→丙…”的顺序轮流工作，每人每次工作1小时，问完成工程时乙总共工作了多少分钟？
动态资源分配问题	水池中有泉水持续涌出，10台抽水机8小时可抽干，8台抽水机12小时可抽干。若用6台抽水机，需多少小时抽干？
时间与效率综合题	钟表每小时慢3分钟，早晨4:30对准标准时间后，当钟表显示上午10:50时，实际标准时间是多少？
概率及极值问题	口袋中有10个黑球、6个白球、4个红球，至少取出多少球才能保证有3个同色球？