2024年AI 比较火的是chatgpt ,2025年比较火的是deepseek
DeepSeek是幻方量化旗下的一家大模型企业,成立于2023年7月份,致力于探索人工智能本质。
根据此前的信息,幻方量化有1万多张A100显卡,在美国显卡禁令之前用于量化投资。
官方网站:www.deepseek.com/
deepseek最新版本包含两个主要产品线:
DeepSeek V3:基础模型系列,提供通用 AI 能力。
DeepSeek R1:专注于推理和编程能力。
DeepSeek 相关模型已经开源,以下是不同模型的开源地址:
DeepSeek Coder:代码大模型,仓库地址:github.com/DeepSeek-AI…
DeepSeek LLM:通用大语言模型,仓库地址:github.com/DeepSeek-AI…
DeepSeek-R1,仓库地址:github.com/deepseek-ai…
DeepSeek-R1模型
DeepSeek-R1在多个高难度基准测试中表现与OpenAI O1-1217相当,但训练成本更低。
与传统的SFT+RL方法不同的是,他们发现即使不使用SFT,也可以通过大规模RL显著提高推理能力。
此外,通过包含少量冷启动数据进行SFT就可以进一步提高性能。
DeepSeek-R1-Zero :
不用SFT直接进行RL,也能取得不错的效果。
DeepSeek-R1 :
加入少量CoT数据进行SFT作为冷启动,然后再进行RL,可以取得更优的性能,同时回答更符合人类偏好。
用DeepSeek-R1的样例去蒸馏小模型,能取得惊人的效果。
DeepSeek-R1与V3的关系:
DeepSeek-R1是基于DeepSeek-V3的进一步优化,通过强化学习和蒸馏技术提升其推理能力。
DeepSeek 的满血版(像 671B 参数的完整版)拥有最强大的性能,但需要极其昂贵的硬件设备来运行。
如果自行部署,可能需要支付高昂的费用。
蒸馏版通过一种叫做知识蒸馏的特殊训练方法,训练出学生模型。
基本使用
网页版:
chat.deepseek.com/
ai.com
移动端:
可以直接在各大应用商店搜索DeepSeek,或者在网页端直接扫码下载。
服务状态监控:status.deepseek.com/
一般来说,当服务状态为红色时,会较频繁的出现:"服务器繁忙,请稍后再试"的提示。
官方提示词库:
官方提供了13个DeepSeek 提示词样例,可以作为参考:
api-docs.deepseek.com/zh-cn/promp…
联网搜索:
目前DeepSeek的预训练数据更新到2024年7月。
联网搜索使DeepSeek不仅能依赖它自己的知识库,还能根据互联网实时搜索相关内容来回答问题。
联网搜索模式基于RAG(检索增强生成)。
DeepSeek 的满血版(像 671B 参数的完整版)拥有最强大的性能,但需要极其昂贵的硬件设备来运行。
如果自行部署,可能需要支付高昂的费用。
蒸馏版通过一种叫做知识蒸馏的特殊训练方法,训练出学生模型。
基本使用
网页版:
chat.deepseek.com/
ai.com
移动端:
可以直接在各大应用商店搜索DeepSeek,或者在网页端直接扫码下载。
服务状态监控:status.deepseek.com/
一般来说,当服务状态为红色时,会较频繁的出现:"服务器繁忙,请稍后再试"的提示。
官方提示词库:
官方提供了13个DeepSeek 提示词样例,可以作为参考:
api-docs.deepseek.com/zh-cn/promp…
联网搜索:
目前DeepSeek的预训练数据更新到2024年7月。
联网搜索使DeepSeek不仅能依赖它自己的知识库,还能根据互联网实时搜索相关内容来回答问题。
联网搜索模式基于RAG(检索增强生成)。
基础技巧
提问加上背景描述:
需要向 DeepSeek R1 说清楚:
我是谁(如我一个互联网打工人)。
我当前的水平(如我是自媒体小白)。
我想让 DeepSeek 充当的角色(如你是一名自媒体运营专家)等。
有时 DeepSeek 回答的内容可能不是你想要的,这时可以增加约束条件,来限制、优化它回答的内容。
即:背景+需求+约束条件。
如:我家小孩读初一(交待背景),怎样提高他的英语水平(提出需求),不需要考虑口语问题 (约束条件)。
学会说人话:
问到一些专业领域的问题时,DeepSeek 的回答会掺杂很多专业名词来解释问题。
只需要在提示词中加上说人话、大白话、通俗易懂等。
告别提示词:
DeepSeek 可以完全不用准备提示词,只要简单明了地描述你的需求,DeepSeek 就能理解并给出精准的答案。
与DeepSeek的对话,尽量使用简单、直白的语言,越是接地气的表达,DeepSeek就越能发挥其最大潜力。
DeepSeek的理解能力非常强,不需要过多的引导,给它一个清晰的问题,它就能提供精准的答复。
小学生沟通方式:
与DeepSeek对话时,有时可能觉得AI的回答过于抽象。
源于传统AI模型过于注重结构化表达。
DeepSeek可以给它一个提示:比如:我是一名小学生,请用小学生能听懂的话解释什么是大模型。
活用上传附件:
DeepSeek的推理模型,不仅能联网,还支持上传附件。
推理+上传附件,可以做更多本地化、私密化的东西。
比如你自己的知识库或者内部资料,让其基于自有知识库进行推理和思考。
可以通过开启 联网搜索 实时搜索内容,上传附件来精准分析。
对于不能搜索的地址,先手动下载资料后,再上传给 DeepSeek R1 帮助分析。
对标模仿能力:
可以让DeepSeek模仿名人风格,因为它对中文的掌握能力极强,能模仿名人的写作风格。
结合V3和R1:
先跟V3多轮对话,得到要推理的细节和提示词,然后发给R1,让R1再来推理、输出。
这样,就能将DeepSeek的能力又提升一个等级。
深度思考:
DeepSeek虽然对标GPT-o1,但是GPT-o1线性罗列,像个高级文档工具。
DeepSeek深度思考,像个思考伙伴。
可以通过三个核心提示词,继续激发它的深度思考能力。
基础技巧
提问加上背景描述:
需要向 DeepSeek R1 说清楚:
我是谁(如我一个互联网打工人)。
我当前的水平(如我是自媒体小白)。
我想让 DeepSeek 充当的角色(如你是一名自媒体运营专家)等。
有时 DeepSeek 回答的内容可能不是你想要的,这时可以增加约束条件,来限制、优化它回答的内容。
即:背景+需求+约束条件。
如:我家小孩读初一(交待背景),怎样提高他的英语水平(提出需求),不需要考虑口语问题 (约束条件)。
学会说人话:
问到一些专业领域的问题时,DeepSeek 的回答会掺杂很多专业名词来解释问题。
只需要在提示词中加上说人话、大白话、通俗易懂等。
告别提示词:
DeepSeek 可以完全不用准备提示词,只要简单明了地描述你的需求,DeepSeek 就能理解并给出精准的答案。
与DeepSeek的对话,尽量使用简单、直白的语言,越是接地气的表达,DeepSeek就越能发挥其最大潜力。
DeepSeek的理解能力非常强,不需要过多的引导,给它一个清晰的问题,它就能提供精准的答复。
小学生沟通方式:
与DeepSeek对话时,有时可能觉得AI的回答过于抽象。
源于传统AI模型过于注重结构化表达。
DeepSeek可以给它一个提示:比如:我是一名小学生,请用小学生能听懂的话解释什么是大模型。
活用上传附件:
DeepSeek的推理模型,不仅能联网,还支持上传附件。
推理+上传附件,可以做更多本地化、私密化的东西。
比如你自己的知识库或者内部资料,让其基于自有知识库进行推理和思考。
可以通过开启 联网搜索 实时搜索内容,上传附件来精准分析。
对于不能搜索的地址,先手动下载资料后,再上传给 DeepSeek R1 帮助分析。
对标模仿能力:
可以让DeepSeek模仿名人风格,因为它对中文的掌握能力极强,能模仿名人的写作风格。
结合V3和R1:
先跟V3多轮对话,得到要推理的细节和提示词,然后发给R1,让R1再来推理、输出。
这样,就能将DeepSeek的能力又提升一个等级。
深度思考:
DeepSeek虽然对标GPT-o1,但是GPT-o1线性罗列,像个高级文档工具。
DeepSeek深度思考,像个思考伙伴。
可以通过三个核心提示词,继续激发它的深度思考能力。
在很多搜索工具内部已经集成了 DeepSeek R1 的深度思考模式,可直接使用,如:
国家超算互联网:https://chat.scnet.cn/#/home
秘塔 AI 搜索:https://metaso.cn/
纳米 AI 搜索:https://www.n.cn/
阿里云百炼大模型服务平台:bailian.console.aliyun.com/
腾讯元宝:yuanbao.tencent.com/