DeepSeek R1 学习笔记

DeepSeek为了方便大众的使用,同时提供了6个蒸馏版本

DeekSeek使用方式

1.大众方式:

网页版:DeepSeek

App版:手机各大应用商店下载安装DeepSeek-AI智能对话助手

2.专业用户

开发者:调用API + DeepSeek服务器 网址:DeepSeek

接口文档地址:首次调用 API | DeepSeek API Docs

第三方平台:

硅基流动,是一家AI模型服务商,提供R1、V3满血版以及DS多尺寸模型。当然,也包括GLM、Qwen、Hunyuan、Yi、FLUX、Llama、SD等知名模型。

硅基流动统一登录

超算互联网:由科技部牵头,供全民免费使用, 目前提供了7B、14B和32B的蒸馏版

智能助手

一些云:

百度智能云:千帆大模型平台-百度智能云千帆

华为云:硅基流动统一登录

阿里云:阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台

华为昇腾社区:共建智能世界云底座-华为云

腾讯云:腾讯云 产业智变·云启未来 - 腾讯

火山引擎:DeepSeek R1 模型部署快速指南--机器学习平台-火山引擎

联通云:联通云—安全数智云

京东云:京东云

总结:

想要满血版,推荐官网、硅基,就是有点卡;

想要稳定,推荐纳米、秘塔、超算、小艺、英伟达,速度很快,很流畅;

想练动手能力,API keys+Chatbox,你值得拥有;

手里有魔法,推荐Poe、Lambda、Perplexity,好用、耐用,大佬都在用。

3.高阶版

在GitHub直接拉模型,本地算力布署.

特点:小模型的蒸馏; 离线使用,数据安全,完全免费

工具:Ollama + ChatBox / Anything LLM

对话使用一些细节:DeepSeek

1.深度思考:

只简单的了解时,不用点深度思考,比如一些显尔易见的,平时生活中的一过程,或数学题解答等,这时使用的模型是V3。如有复杂的思维过程,创意或策划等很复杂的过程时,点击"深度思考(R1)",可和"联网搜索"联合使用等,

2.模型需要数据训练,如果问的问题与时间有关的,可能数据还没有训练,点击"联网搜索"效果比较好,如果时间比较靠前,已训练过的话,只用"深度思考(R1)"模型比较好

3.专属问题:通过上传附件,来生成专属的结果,如AI个人简历,个人知识库,公司财表,企业报表分析等。

DeepSeek-R1提示词的使用原则、技巧、避坑与场景

提示词的两个关键问题:

首先:真正理清脑海中的想法:

其次:是否能够通过文字准确传达这个想法

推理模型的提示词的共识:

共识1:清空之前的提示词模板

DeepSeek 特点是没有提示词技巧

共识2:仍需要告诉AI足够多的背景信息

干什么?

给谁干?

目的是?(要什么)

约束是?(不要什么)

共识3:用乔哈里视窗分析你到底该告诉AI多少信息

1.人知道,AI知道的---简单说, 如能表明身份职业等的限写定词,就没有必要再对其进行补充说明,不包含新兴的,

2.人知道,AI不知道的-------喂模式

几种典型方式:

1.举例法:最常见的是通过举例来实现,展示一个具体例子时,实际上是在让AI感知这个例子中的模式(pattern),并期待它能够通过自身的泛化能力来理解和应用这个模式。

2.定义字典:在待定场景中,比如需要使用15个独有术语时(比如一些"业里黑话"),可以专门设置一下定义模块,将这个“定义字典”输入给AI,这也是输入模式。

3.RAG(检索增强生成)技术:面对AI未知的数据时,使用t先检索(本地+联网查资料)-->再生成(写答案)的方式,本质上也是在输入模式。

3.人不知道,AI知道----提问题

提示词的核心技巧就在于如何提出好问题

"提问"本身完全可以作为一门独立的学科来研究。提问能力,也将为一项核心竞争力。

4.人不知道,AI也不知道----开放聊

如科研前沿

共识4:可以用大白话方式交流, 注意提供足额的信息

共识5: 是否需要指定思考步骤,取决于你是否希望AI严格执行. 原则:给模型目标,而不是任务。

DeepSeek使用技巧

技巧1:要求明确; 万能提示词模板 你是谁 + (背景信息) + 你的目标

你是谁:非常的有用

背景信息:告诉他你为什么做这件事,你面临的现实背景是什么或问题是什么。

你的目标: 说清楚它帮你做什么,做到什么程度。

核心:用人话清晰的表达出你的需求。

技巧2:不要定义过程

技巧3:明确受众

技巧4:联网功能 DeepSeek-R1,是为数不多的,可以联网的推理大模型。

技巧5:补充额外信息 上传PDF/PPT作为知识基底.(最多不超过50个,每个不超过100MB)。

推理 + 上传附件,可心做更多本地化、私密化的东西,比发你自己的知识库或者内部资料。让其基于自有知识库进行推理和思考。

技巧6:上下文的联系 vs 清除记忆

上下文记忆:DeepSeek R1目前提供的上下文只有64k token长度(官方API文档的说明,实际聊天对话的长度待确认),对应到中文字符大概是3-4万字。适用于文档分析、长对话等场景。

三点注意:

注意1:上下文记忆有限

注意2:输出长度有限,多数大模型会将输出长度控制在4k或者8k,也就是单次对话最多2-4千中文字符

注意3:如何清除之前的记忆

解决方法: 开启新的对话

输入:回复此条对话前,请忽略前面所有的对话。

技巧7: 反馈与迭代优化

情况1:对初始的回答进一步追问、优化。

情况2:针对某一个问题,挑毛病或辩证思考,评估方案和决策。

技巧8:复杂问题,分步拆解

DeepSeek使用避坑

1.冗长提示词污染关键词 过长的描述可能导致焦点偏移,过度思考,甚至逻辑凌乱。推理模型时代,只需要命中那个关键词即可。

2.避免复杂句式和模糊词语 否定句式增加理解成本, 未指定处理方式和精度要求。

3.避免“分步骤思考”要求 R1模型通过强化学习,自动生成完整思维链。

4.过度角色扮演 R1本身就是专家模型&专家思维

DeepSeek使用场景

场景1:数学&物理题 (R1强于理工科)

场景2:代码能力 涵盖:代码编写、代码优化、分析和解释代码(加注释)、调试代码&修复问题等

场景3:写作&文案能力

场景4: 文本摘要

场景5:指定输出格式 mermaid、svg、Xmind等可以通过文本表示的图表可以通过AI生成,在提问时明确要求以某种图表的语法格式回复即可。如生成流程图、甘特图、xmind、ppt

场景6:日常生活

场景7:不同职业场景

场景8:简历生成

场景9: 模拟面试

5.指令模型 vs 推理模型

理解大语言模型的工作原理与局限,能更好的知道AI可完成任务的边界。

指令模型(通用模型、传统模型、instruct model)

依赖用户指令来生成内容或执行任务。

代表: DeepSeek - v3, GTP-4o、豆包、Qwen2.5、Llama-3.1

特点:step by step

推理模型(reasoning model):专注于逻辑推理、问题解决的模型、能够自主处理需要多步聚分析、因果推断或复杂决策的任务。比如数学、编程、科学问题。

代表:DeepSeek-R1、 OpenAI-o1、OpenAI-o3-mini

特点:大模型更像是一个“职场精英",给出明确的目的,提供丰富的上下文,剩下的让模型自行发挥(向模型要结果)

DeepSeek-R1 目前是唯一联网的推理模型。

AI综合比较:

DeepSeek: 功能全面,操作简单,响应快,普通用户的首先

GPT-4: 功能强大,但更适合专业人士,普通用户用起来有点浪费

文心一言:中文理解能力不错,适合写作文,总结文章,但功能相对单一,

豆包:说话打娱乐和社交,适合聊天,讲笑话,实用性弱。

4大部署方案详解

方式1:调用API + DeepSeek服务器

创建自己的应用的方式

或者

直接使用某客户端访问(官方推荐):awesome-deepseek-integration/README_cn.md at main · deepseek-ai/awesome-deepseek-integration · GitHub

方式2:第三方平台

推荐:秘塔搜索, 硅基流动

cherryStudio: Cherry Studio 官方网站 - 全能的AI助手

国家超算中心:超算互联网

方式3: 本地算力部署

本地部署就是自己电脑部署DeepSeek-R1模型,使用本地的算力。

特点:此方案不用联网

适合:有数据隐私方面担忧的人或者保密单位根本就不能上网的。

主要瓶颈: 内存 + 显存的大小。

版本选择: DeepSeek-R1-Distill Models

下载ollama : Ollama

Chrome插件Page Assist或Anything LLM

ChatBox, Cherry Studio

常用命令:

/? 获取帮助

/bye 退出

/ollama list 安装模型

/ollama -v 获取版本

使用客户端:

CherryStudio的下载:Cherry Studio 官方网站 - 全能的AI助手

配置: ollama

api地址:http://localhost:11434/v1/

修改models路径:

服务器部署: 满血,404G, 建议大于500G

DeepSeek-R1训练过程与原理:

核心:主要亮点在于出色的数学和逻辑推理能力,区别于一般的通用指令AI模型。其训练方式结合了强化学习(RL)与监督微调(SFT),创造了一种高效训练,高推理能力AI模型的方法。

训练过程

过程1:冷启动阶段:

收集R1-Zero的输出,并进行人工标注和格式化。

使用带有长CoT的few-shot prompting.

直接提示模型生成带有反思和验证的详细解答。

过程2:面向推理的强化学习

过了解决训练过程中可能出现的语言混杂问题,引入语言一致性奖励(Language Consistency Reward) 机制。

过程3:拒绝采样与监督微调

利用训练好的RL模型进行拒绝采样,生成新的SFT数据,涵盖了其他领域的数据。

RL模型(相当于考过年级第一的你)现在要做的是:

->生成候选数据。

->拒绝低质量样本

->高质量SFT数据

过程4:面向全场景的强化学习

第二阶段的强化学习训练,涵盖所有类型的任务,此外,R1采用了不同的奖励信号和提示分布,针对不同的任务类型进行了优化。

逻辑推理等任务,采用基于规则的奖励,开放式问答、创意写作等采用基于模型的奖励

DeepSeek-R1总结:

中间推理模型生成:通过推理导向的强化学习( Reasoning - Oriented RL), 直接生成高质量的推理数据,减少人工标注依赖

通用强化学习优化:基于帮助性和安全性奖励模型,优化推理与非推理任务表现,构建通用性强的模型。

最终成果:DeepSeek-R1 将 R1-Zero的推理能力与通用强化学习的适应能力相结合,成为一个兼具强推理能力和任务广泛适应性的高效AI模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值