DeepSeek使用技巧

小圆圆666

已于 2025-02-20 15:11:12 修改

阅读量716

点赞数 4

分类专栏：大模型文章标签：人工智能深度学习语言模型算法

于 2025-02-18 17:15:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/minyshi/article/details/145706423

版权

大模型专栏收录该内容

2 篇文章

订阅专栏

文章目录

DeepSeek 与其他模型区别

推理模型
擅长处理数理逻辑、代码和需要深度推理的复杂问题，自主处理需要多步骤分析、因果推断或者复杂决策的任务。例如 DeepSeek R1、OpenAI o1。

通用模型
用于基于指令生成内容或者执行任务。例如，OpenAI GPT-4o、DeepSeek V3、豆包等。

DeepSeek 3个特点

将内容拆解成 token
大语言模型训练是让模型建立文本片段之间的关联规律。训练的数据会经过切割成 token 基本单元，然后转为数字编码。

大模型处理流程

预处理阶段要处理 PB级原始数据
数据清洗需要去重、脱敏、质量验证等工作
后期进行监督微调、强化学习、基于人类反馈的强化学习等迭代

针对训练好的模型，可以通过联网搜索或则上传文档补充信息。

输入输出长度有限

输入： deepseek R1目前提供的上下文只有64k token长度，对应到中文字符大概是3万～4万字
输出：多数大模型会将输出长度控制在4k或者8k，也就是单次对话最多给你2千～4千中文字符。

解决方案是，

翻译类：自己先将文档拆分逐步输入，或者写代码调用API多次执行
长文写作类，先让R1 梳理框架、列出提纲目录，再根据目录一次次分别生成不同阶段的内容。

DeepSeek 使用技巧

简单快速的回答，用默认 V3 模型
复杂的任务，需要更加结构化时，用 R1 模型
知识在 2023年12月之前 无需用联网模式，知识在日期之后用联网模式
联网搜索，是让DS根据网络搜索结果来回答问题，也就是RAG（检索增强生成）
提出明确详细的要求（写一个方案 → 为XX设计一个XX方案，用于XX需求，需要包含XX）
可以设定 R1 特定的风格
提供充分的任务背景信息（提供背景信息，例如原因 / 遇到的问题 / 当前的程度 / 需要了解的细节 / 信息文档等）
明确需求结果，不用提供解决思路，不用扮演专家，不用给示例，R1 经过强化学习，已经具备更好的思维链，

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。