最近比较火的DeepSeek简介

数字天下

已于 2025-02-20 10:28:47 修改

阅读量1.2k

点赞数 24

文章标签：人工智能 deepseek

于 2025-02-20 10:26:59 首次发布

本文链接：https://blog.youkuaiyun.com/qq_22201881/article/details/145746494

版权

2024年AI 比较火的是chatgpt ，2025年比较火的是deepseek

DeepSeek是幻方量化旗下的一家大模型企业，成立于2023年7月份，致力于探索人工智能本质。

根据此前的信息，幻方量化有1万多张A100显卡，在美国显卡禁令之前用于量化投资。

官方网站：www.deepseek.com/

deepseek最新版本包含两个主要产品线：

DeepSeek V3：基础模型系列，提供通用 AI 能力。
DeepSeek R1：专注于推理和编程能力。

DeepSeek 相关模型已经开源，以下是不同模型的开源地址：

DeepSeek Coder：代码大模型，仓库地址：github.com/DeepSeek-AI…
DeepSeek LLM：通用大语言模型，仓库地址：github.com/DeepSeek-AI…
DeepSeek-R1，仓库地址：github.com/deepseek-ai…

DeepSeek-R1模型

DeepSeek-R1在多个高难度基准测试中表现与OpenAI O1-1217相当，但训练成本更低。
与传统的SFT+RL方法不同的是，他们发现即使不使用SFT，也可以通过大规模RL显著提高推理能力。
此外，通过包含少量冷启动数据进行SFT就可以进一步提高性能。
DeepSeek-R1-Zero ：

不用SFT直接进行RL，也能取得不错的效果。

DeepSeek-R1 ：

加入少量CoT数据进行SFT作为冷启动，然后再进行RL，可以取得更优的性能，同时回答更符合人类偏好。

用DeepSeek-R1的样例去蒸馏小模型，能取得惊人的效果。

DeepSeek-R1与V3的关系：

DeepSeek-R1是基于DeepSeek-V3的进一步优化，通过强化学习和蒸馏技术提升其推理能力。

在这里插入图片描述
DeepSeek 的满血版（像 671B 参数的完整版）拥有最强大的性能，但需要极其昂贵的硬件设备来运行。

如果自行部署，可能需要支付高昂的费用。

蒸馏版通过一种叫做知识蒸馏的特殊训练方法，训练出学生模型。

基本使用

网页版：

chat.deepseek.com/
ai.com

移动端：

可以直接在各大应用商店搜索DeepSeek，或者在网页端直接扫码下载。

服务状态监控：status.deepseek.com/

一般来说，当服务状态为红色时，会较频繁的出现："服务器繁忙，请稍后再试"的提示。

官方提示词库：

官方提供了13个DeepSeek 提示词样例，可以作为参考：

api-docs.deepseek.com/zh-cn/promp…

联网搜索：

目前DeepSeek的预训练数据更新到2024年7月。
联网搜索使DeepSeek不仅能依赖它自己的知识库，还能根据互联网实时搜索相关内容来回答问题。
联网搜索模式基于RAG(检索增强生成)。
DeepSeek 的满血版（像 671B 参数的完整版）拥有最强大的性能，但需要极其昂贵的硬件设备来运行。

如果自行部署，可能需要支付高昂的费用。

蒸馏版通过一种叫做知识蒸馏的特殊训练方法，训练出学生模型。

基本使用

网页版：

chat.deepseek.com/
ai.com

移动端：

可以直接在各大应用商店搜索DeepSeek，或者在网页端直接扫码下载。

服务状态监控：status.deepseek.com/

一般来说，当服务状态为红色时，会较频繁的出现："服务器繁忙，请稍后再试"的提示。

官方提示词库：

官方提供了13个DeepSeek 提示词样例，可以作为参考：

api-docs.deepseek.com/zh-cn/promp…

联网搜索：

目前DeepSeek的预训练数据更新到2024年7月。
联网搜索使DeepSeek不仅能依赖它自己的知识库，还能根据互联网实时搜索相关内容来回答问题。
联网搜索模式基于RAG(检索增强生成)。

基础技巧
提问加上背景描述：

需要向 DeepSeek R1 说清楚：

我是谁（如我一个互联网打工人）。
我当前的水平（如我是自媒体小白）。
我想让 DeepSeek 充当的角色（如你是一名自媒体运营专家）等。

有时 DeepSeek 回答的内容可能不是你想要的，这时可以增加约束条件，来限制、优化它回答的内容。
即：背景+需求+约束条件。
如：我家小孩读初一（交待背景），怎样提高他的英语水平（提出需求），不需要考虑口语问题（约束条件）。

学会说人话：

问到一些专业领域的问题时，DeepSeek 的回答会掺杂很多专业名词来解释问题。
只需要在提示词中加上说人话、大白话、通俗易懂等。

告别提示词：

DeepSeek 可以完全不用准备提示词，只要简单明了地描述你的需求，DeepSeek 就能理解并给出精准的答案。
与DeepSeek的对话，尽量使用简单、直白的语言，越是接地气的表达，DeepSeek就越能发挥其最大潜力。
DeepSeek的理解能力非常强，不需要过多的引导，给它一个清晰的问题，它就能提供精准的答复。

小学生沟通方式：

与DeepSeek对话时，有时可能觉得AI的回答过于抽象。
源于传统AI模型过于注重结构化表达。
DeepSeek可以给它一个提示：比如：我是一名小学生，请用小学生能听懂的话解释什么是大模型。

活用上传附件：

DeepSeek的推理模型，不仅能联网，还支持上传附件。

推理+上传附件，可以做更多本地化、私密化的东西。

比如你自己的知识库或者内部资料，让其基于自有知识库进行推理和思考。

可以通过开启联网搜索实时搜索内容，上传附件来精准分析。
对于不能搜索的地址，先手动下载资料后，再上传给 DeepSeek R1 帮助分析。

对标模仿能力：

可以让DeepSeek模仿名人风格，因为它对中文的掌握能力极强，能模仿名人的写作风格。

结合V3和R1：

先跟V3多轮对话，得到要推理的细节和提示词，然后发给R1，让R1再来推理、输出。
这样，就能将DeepSeek的能力又提升一个等级。

深度思考：

DeepSeek虽然对标GPT-o1，但是GPT-o1线性罗列，像个高级文档工具。
DeepSeek深度思考，像个思考伙伴。
可以通过三个核心提示词，继续激发它的深度思考能力。