DeepSeek 与其他模型区别
推理模型
擅长处理数理逻辑、代码和需要深度推理的复杂问题,自主处理需要多步骤分析、因果推断或者复杂决策的任务。例如 DeepSeek R1、OpenAI o1。
通用模型
用于基于指令生成内容或者执行任务。例如,OpenAI GPT-4o、DeepSeek V3、豆包等。
DeepSeek 3个特点
将内容拆解成 token
大语言模型训练是让模型建立文本片段之间的关联规律。训练的数据会经过切割成 token 基本单元,然后转为数字编码。
大模型处理流程
- 预处理阶段要处理 PB级原始数据
- 数据清洗需要去重、脱敏、质量验证等工作
- 后期进行监督微调、强化学习、基于人类反馈的强化学习等迭代
针对训练好的模型,可以通过联网搜索或则上传文档补充信息。
输入输出长度有限
- 输入: deepseek R1目前提供的上下文只有64k token长度,对应到中文字符大概是3万~4万字
- 输出:多数大模型会将输出长度控制在4k或者8k,也就是单次对话最多给你2千~4千中文字符。
解决方案是,
- 翻译类:自己先将文档拆分逐步输入,或者写代码调用API多次执行
- 长文写作类,先让R1 梳理框架、列出提纲目录,再根据目录一次次分别生成不同阶段的内容。
DeepSeek 使用技巧
- 简单快速的回答,用默认 V3 模型
- 复杂的任务,需要更加结构化时,用 R1 模型
- 知识在 2023年12月之前 无需用联网模式,知识在日期之后用联网模式
- 联网搜索,是让DS根据网络搜索结果来回答问题,也就是RAG(检索增强生成)
- 提出明确详细的要求(写一个方案 → 为XX设计一个XX方案,用于XX需求,需要包含XX)
- 可以设定 R1 特定的风格
- 提供充分的任务背景信息(提供背景信息,例如原因 / 遇到的问题 / 当前的程度 / 需要了解的细节 / 信息文档等)
- 明确需求结果,不用提供解决思路,不用扮演专家,不用给示例,R1 经过强化学习,已经具备更好的思维链,