DeepSeek官方推荐:R1要这样设置

部署运行你感兴趣的模型镜像

 Datawhale分享 

官方推荐:DeepSeek、OpenAI,整理:Datawhale

信息来源|量子位、新智元

到底该如何部署 DeepSeek-R1,才能体验最佳?

对于这个问题,DeepSeek 官方发话了:

697f98c62c308bc4b85e53f67255e923.png

DeepSeek 推荐的设置非常简单,只有四项内容。

其中三项,其实在此前相关文档中有所涉及,我们在这里再来回顾一下。

首先,是别用系统提示词(No system prompt),所有的指令都应该包含在用户提示词中。

至于原因,网友认为是因为 R1 就是这么被训练而来的。

图片

其次,是把 Temperature 设置为 0.6

DeepSeek 在 GitHub 文档中的解释是:

将Temperature设置在0.5-0.7(建议0.6)的范围内,以防止无休止的重复或输出不一致。

第三点,则是一份缓解模型绕过思维的指南,包含两个细分内容:

  • 对于数学问题,建议在你的提示中包含一个指令,如:“请一步一步地推理,并将你的最终答案放在 \boxed{} 内。”

  • 在评估模型性能时,建议进行多次测试并对结果进行平均。

图片

新的设置推荐

除了上述已有的三点之外,这次 DeepSeek 官方在推文中引入了一个新的推荐——

官方提示搜索和文件上传。

DeepSeek 表示:

上传文件时,请按照模板创建提示,其中 {file_name}, {file_content} 和 {question} 是参数。

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

对于 Web 搜索,{search_results}, {cur_data}和{question} 是参数。

对于中文查询,使用提示词:

图片

对于英文查询,使用提示词:

图片

相应内容在 DeepSeek 官方 GitHub 的 README 文档中也有更新,感兴趣的小伙伴可以进一步了解下~

DeepSeek 官方 GitHub:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/README.md

同一天,OpenAI 也公布了推理模型的最佳实践

巧的是,就在同一天的早些时候,OpenAI 也发布了官方指南,汇总了使用 o 系列模型的最佳实践。

包括推理模型与非推理模型之间的区别、何时使用推理模型、以及如何有效地使用提示来引导推理模型。

a753e620945fe90a95e18006b6173c57.png

推理模型与 GPT 模型

OpenAI 介绍道,与 GPT 模型相比,o 系列模型在不同任务上表现出色,且需要使用不同的提示。

这两类模型没有优劣之分——它们各有所长。

o 系列模型更像是一个「规划者」,能深入思考复杂任务;相比之下,GPT 模型则是一个「执行者」,能直接执行任务,延迟低、性价比更高。

在不同情况下,具体选择哪个模型,推荐如下。

  • 速度和成本:选择 GPT 模型,因为它们处理速度更快,成本更低

  • 行明确任务:选择 GPT 模型,它们在处理界定清晰的任务时表现出色

  • 准确性和可靠性:选择 o 系列模型,它们是可靠的决策专家

  • 复杂问题解决:选择 o 系列模型,它们善于处理模糊和复杂的问题

大多数AI工作流,可以使用二者的结合。

6f978b86971799ff1ef7534faab9e5f3.png

何时使用推理模型

OpenAI 列出了一些从客户和内部观察到的成功使用模式,是一些针对 o 系列模型的实用指导。

1. 处理模糊任务

推理模型特别擅长处理信息有限或零散的情况,只需通过简单的提示词就能理解用户意图并妥善处理指令中的信息缺口。

值得注意的是,推理模型通常会在做出未经验证的猜测或填补信息空缺之前,主动提出澄清性问题。

af9da98dd08413daf6af5c137365f4a6.png

AI知识平台的法律和金融公司表示,只需一个简单提示,o1就能使Matrix轻松识别信用协议中受限支付能力下可用的资金篮。此前没有任何模型达到这种性能水平

2. 大海捞针

当需要处理大量非结构化信息时,推理模型特别擅长理解内容并精准提取出回答问题所需的关键信息。

7b4dcad71fc6bac2a9d252aaf35a9766.png

比如,AI 金融平台发现,为了分析一家公司的收购,o1 审查数十份文件(合同和租赁协议),找到了可能影响交易的复杂条款

3. 在大型数据集中发现关系和细微差别

推理模型特别擅长分析包含数百页密集、非结构化信息的复杂文档,如法律合同、财务报表和保险索赔等。这些模型在识别文档之间的关联性,并基于数据中隐含的事实做出决策方面,表现尤为突出。

76bc74fa6d1b064185d5287fd4a008a8.png

税务研究平台发现,o1 在综合多个文档的推理上表现要好得多

推理模型还特别擅长理解细微的政策和规则,并将其准确应用于具体任务中以得出合理结论。

d29a42844840a008bc9cba514808e26d.png

投资管理 AI 平台提问:融资如何影响现有股东,尤其是在行使反稀释权的情况下?o1和 o3-mini 完美完成任务,而顶级财务分析师需要花 20-30 分钟计算

4. 多步骤AI智能体规划

推理模型在AI智能体规划和策略制定中发挥着关键作用。

将推理模型作为「计划者」时效果显著:它能为问题制定详细的多步骤解决方案,并根据具体需求(高智能或低延迟)选择和分配合适的 GPT 模型(执行者)来完成各个步骤。

6aa930569563b6325d71bbe997383ef2.png

o1 很擅长选择数据类型,将大问题分解为小块

5. 视觉推理能力

截至目前,o1 是唯一一个具备视觉处理能力的推理模型。

与 GPT-4o 相比,o1 的独特优势在于它能够准确理解最具挑战性的视觉内容,包括结构不规则的图表和表格,以及质量欠佳的图片。

d7e5f4547aaf8bde1d267f57ca00c098.png

SafetyKit 会自动化审核数百万种产品的风险与合规性,包括奢侈品仿制品、濒危物种以及受管制物品。最困难的图像分类任务上,o1 达到了 88% 的准确性

可以看到,o1 能够从复杂的建筑工程图纸中精确识别各类设施和材料,并生成完整的工程物料清单(BOM)。

最令人惊喜的发现是,o1 能够自动关联不同图纸之间的信息:它可以将建筑图纸某页的图例信息正确应用到其他页面,而无需特别指示。

e367c3aec0c0402f89291132c0beb95c.png

例如,在识别 4x4 PT 木柱时,o1 够根据图例自动理解「PT」代表压力处理

6. 代码审查、调试和质量改进

推理模型在审查和改进大规模代码方面表现突出。考虑到这类模型的较高延迟特性,通常将代码审查任务安排在后台运行。

虽然 GPT-4o 和 GPT-4o mini 凭借较低的延迟可能更适合直接编写代码,但在那些对延迟要求相对不那么严格的代码生成场景中,o3-mini 表现同样出色。

33c8e8fe2d18ac0754f31feef7ae6e66.png

Windsurf 发现,o3-mini 非常擅长计划和只需复杂的软件设计系统

7. 评估和基准测试其他模型的响应

OpenAI 还发现,推理模型在对其他模型的输出进行基准测试和评估方面表现优异。

数据验证对确保数据集的质量和可靠性至关重要,这一点在医疗保健等敏感领域尤其重要。

传统验证方法主要依赖预设规则和模式,而 o1 和 o3-mini 等先进模型则能够理解上下文并进行数据推理,从而提供更灵活、更智能的验证方案。

8b482a18813d3105ae7fdc42317f03b1.png

在医疗应用场景中,o1 的推理能力能在最困难和最复杂的评分任务中精准识别细微差异,彻底改变评估方式

如何编写推理模型的 prompt

推理模型在处理简明直接的提示词时表现最佳。某些提示工程(如要求模型「一步一步思考」)可能并不会提升性能,有时反而会降低效果。

简单来说,你可以可以这样理解:

  • 推理模型就像一位经验丰富的高级同事——你只需告诉他们最终目标,就能相信他们自主完成所有细节工作。

  • GPT 模型则更像一位新手同事——你需要提供明确详细的指示,才能让他们准确完成特定的输出任务。

构建 prompt 的具体建议如下:

  • 用开发者消息取代系统消息:自 o1-2024-12-17 版本起,推理模型开始支持开发者消息(developer message)而非系统消息(system message)。

  • 保持提示词简洁明确:推理模型最擅长理解和响应简短、清晰的指令。

  • 避免使用 CoT 提示:由于模型内置推理能力,因此无需特别提示它们「一步一步思考」或「解释推理过程」。

  • 善用分隔符增强清晰度:使用 Markdown、XML 标签和章节标题等分隔符来明确区分输入的不同部分,这有助于模型准确理解各个章节的内容。

  • 优先尝试零样本学习:推理模型通常无需少样本示例即可产出优质结果,因此建议先尝试不含示例的提示词。如果对输出结果有更复杂的要求,再考虑在提示词中添加输入和期望输出的示例。请注意确保示例与提示词指令严格匹配,因为不一致可能导致性能下降。

  • 提供明确约束条件:如果需要对模型的响应施加具体限制(例如「提供预算控制在 500 美元以内的解决方案」),请在提示词中明确列出这些约束条件。

  • 明确定义目标:在指令中,请详细说明判定响应成功的具体参数,并引导模型持续优化推理过程,直到达成设定的成功标准。

  • Markdown 格式说明:从 o1-2024-12-17 版本开始,API中的推理模型默认不会生成带有Markdown格式的响应。如果确实需要在响应中包含Markdown格式,请在开发者消息的首行添加「Formatting re-enabled」字符串。

以下是代码重构、执行规划、STEM 研究的 prompt 示例:

c55f78dbc6931cd13be5cbd26d18d5d6.png

2347d80fad636e27ffcfdb0bd035156d.png

6bf3fe1c31811e7a640de9c8b35fbbe7.png

左右滑动查看

推理工作原理

推理模型在输入和输出token之外,还引入了推理token用于「思考」。

在生成推理token后,模型会生成可见的补全内容作为最终答案,同时从上下文中清除推理token。

下面是用户与AI助手之间多轮对话的示例。可以看到,每轮对话的输入和输出token都会被保留,而推理token则会被移除。

430e885737181e562fae1fe567e11ca7.png

参考资料:

https://x.com/deepseek_ai/status/1890324295181824107

https://platform.openai.com/docs/guides/reasoning-best-practices

https://platform.openai.com/docs/guides/reasoning

图片一起“赞”三连

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

### 比较 DeepSeek Docker 镜像版本 对于想要了解 `deepseek-r1:7b` 和 `deepseek-r1:latest` 这两个 DeepSeek Docker 镜像之间差异的情况,可以采取多种方式来实现这一目标。通常情况下,Docker 镜像之间的主要区别体现在基础操作系统、依赖库以及应用程序本身的更新上。 #### 使用 Docker 命令行工具对比镜像层 通过拉取并分析这两个特定标签的镜像,能够识别出它们各自所基于的基础镜像及其附加组件的变化: ```bash docker pull deepseek/deepseek-r1:7b docker pull deepseek/deepseek-r1:latest ``` 接着可以通过查看两者的分层信息来进行初步比较: ```bash docker inspect --format='{{json .RootFS.Layers}}' deepseek-r1:7b | jq . docker inspect --format='{{json .RootFS.Layers}}' deepseek-r1:latest | jq . ``` 上述命令会展示每个镜像内部结构中的不同层次,从而帮助理解两者间的具体变化[^1]。 #### 查看官方文档或发布说明 更为直接的方法是从官方渠道获取关于各个版本的具体改动记录。如果存在详细的变更日志,则可以直接从中了解到新旧版本间的主要改进点和技术细节上的调整[^3]。 #### 执行容器运行测试 实际操作也是检验版本差别的有效手段之一。启动两个分别对应于不同版本的容器实例,在相同条件下执行相同的任务流程,观察性能表现、资源消耗等方面是否存在显著差距。 ```bash docker run -it --rm deepseek/deepseek-r1:7b python test_script.py docker run -it --rm deepseek/deepseek-r1:latest python test_script.py ``` 这有助于发现潜在的功能增强或是兼容性问题[^2].
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值