deepseek学习笔记

最新推荐文章于 2025-03-01 20:51:03 发布

wsnzou

最新推荐文章于 2025-03-01 20:51:03 发布

阅读量649

点赞数 2

文章标签：学习笔记

本文链接：https://blog.youkuaiyun.com/wsnzou/article/details/145467689

版权

原计划是基于BERT或者GPT做一些自然语言处理的应用研究，deepseek出来之后，决定使用deepseek来做，相信能够获得更好的效果。

1、deepseek的论文

deepseek的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》于2025年1月下旬同步发布在了github和arxiv上。

github地址：https://github.com/deepseek-ai/DeepSeek-R1

arxiv地址：https://arxiv.org/abs/2501.12948

2、deepseek的版本及开源情况

根据论文摘要，deepseek总共开源了deepseek-R1-Zero、DeepSeek-R1，以及6个基于Qwen和LLaMA从DeepSeek-R1中知识蒸馏得到的小模型。

这些模型在HuggingFace上的下载地址

deepseek-ai (DeepSeek)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wsnzou

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

deepseek各个版本及论文

evanzh7的博客

01-26

2万+

论文地址：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf5。论文地址：https://arxiv.org/abs/2401.0295420。论文地址：https://arxiv.org/abs/2412.1943714。论文地址：https://arxiv.org/abs/2401.060662。论文地址：https://arxiv.org/abs/2501.129481。

DeepSeek-VL论文阅读和整理

wentinghappyday的博客

03-25

2605

DeepSeek-VL的论文理解

参与评论您还未登录，请先登录后发表或查看评论

当我用 DeepSeek 学习、工作和玩，惊艳！含提问攻略、使用实例和心得.rar

02-20

当我用 DeepSeek 学习、工作和玩，惊艳！含提问攻略、使用实例和心得

从DeepSeek发布的4篇论文来看DeepSeek的发展过程

Antai_ZHU的博客

02-07

1672

这篇按顺序梳理DeepseekMoE、Deepseek-V2、Deepseek-V3到Deepseek R1这4篇论文。Deepseek的模型都采用了MoE架构的，因此开始具体论文分析之前，先分析一下MoE架构稀疏型模型和传统的密集型模型区别。

【DeepSeek指令--论文篇】

j8267643的博客

03-01

2275

其实人人都会用DeepSeek，但是要学会提问，这就比较困难了。用最简单直接的语言跟DeepSeek聊天，就像你现在有了一个私人秘书。其实你提出的要求，DeepSeek会为你思考，然后给出你想要的结果。如果你说得太少或太多，套用的话比较复杂，反而会影响DeepSeek的判断，因此学会使用正确的指令非常之重要。让DeepSeek成为你的秘书，这才是你的能力。

DeepSeek系列论文解读之——DeepSeek LLM Scaling Open-Source Language Models with Longtermism

weixin_58022259的博客

02-05

2470

当长期主义遇见社区智慧，或许这就是破解"AI摩尔定律"困境的关键密钥。

论文解读——DeepSeek-R1

hang on it more longer

01-22

7890

生成反馈。

DeepSeek系列论文解读之——DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language

weixin_58022259的博客

02-06

1887

DeepSeek MoE：通向专家终极专精化的技术革命

使用DeepSeek的技巧笔记

qq_59757948的博客

02-05

1001

对于DeepSeek而言，我们不再需要那么多的提示词技巧，但还是要有两个注意点：你需要理解大语言模型的工作原理与局限,这能帮助你更好的知道AI可完成任务的边界;

【完整版】DeepSeek-R1大模型学习笔记（架构、训练、Infra、复现代码）

我的技术栈碎碎念空间

02-04

7380

MoE在每次推理时选择性地激活部分模型参数，在不成比例增加计算成本的情况下，可以扩展模型参数。在DeepSeek-V2中就提出了用于FFN层的DeepSeekMoE，DeepSeek-R1在DeepSeek-V2基础上进一步优化。

借助TRAE和DeepSeek学习Python开发MVC框架程序笔记（四）对应代码

最新发布

04-24

借助TRAE和DeepSeek学习Python开发MVC框架程序笔记（四）对应代码

BLDC 和 PMSM 的理解学习笔记 deepseek

qq_30127025的博客

02-17

562

最近在了解带霍尔传感器的直流无刷电机（BLDC）的驱动方式，在查阅数据手册时，描述到可以驱动 BLDC or PMSM 。由此我遍搜索了下着两个电机的区别，直流无刷电机（BLDC）与永磁同步电机（PMSM）有结构上的差别，也有性能的差别。并且网络上对其描述有些混淆，我在此进行梳理记录，并通过 deepseek 帮助我理解。

【论文翻译】DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

无远弗届

06-18

3154

本翻译来自大模型翻译，如有不对的地方，敬请谅解引言开源社区通过开发诸如StarCoder（Li等人，2023b；Lozhkov等人，2024）、CodeLlama（Roziere等人，2023）、DeepSeek-Coder（Guo等人，2024）和Codestral（MistralAI，2024）等开源代码模型，在推进代码智能方面取得了显著进展。这些模型的性能已稳步接近闭源同类产品，为代码智能的进步做出了贡献。然而，当与像GPT4-Turbo（OpenAI，2023）、Claude 3 Opus（An

深入了解Deepseek模型的最佳三篇论文

yanqianglifei的专栏

02-08

1326

论文提出DeepSeek-R1系列模型，利用强化学习提升LLMs推理能力。通过多阶段训练、奖励建模、知识蒸馏等手段，提升推理能力，并在多个基准测试中验证有效性。此外，论文开源模型和相关工具，支持研究社区进一步探索和改进。

deepseek-vl 论文阅读笔记

samoyan的博客,记录技术成长~

07-22

5431

我们的语言模型基于DeepSeek LLM（DeepSeek-AI，2024），其微设计大体遵循LLaMA（Touvron等，2023a,b）的设计，采用带有RMSNorm（Zhang和Sennrich，2019）函数的Pre-Norm结构，并使用SwiGLU（Shazeer，2020）作为前馈网络（FFN）的激活函数，中间层维度为8/3模型维度。此外，我们引入了一种新的“模态预热”策略。为了促进创新并支持广泛的应用需求，我们公开了两个版本的模型，分别为1.3B和7B，以满足不同计算能力的需求。

DeepSeek-v3：开源大模型新高度，最强性能，最高性价比！（论文详解）

热门推荐

sherlockMa的博客

12-29

1万+

DeepSeek-V3是一个具有671B参数的大型Mixture-of-Experts语言模型，采用Multi-head Latent Attention和DeepSeekMoE架构以提高训练效率和推理性能。模型通过无辅助损失的负载平衡策略和多token预测训练目标优化，预训练于14.8万亿tokens，并经过监督微调和强化学习以提升性能。DeepSeek-V3在多个基准测试中表现优异，尤其在代码和数学任务上，与顶尖闭源模型媲美，而训练成本仅为2.788M H800 GPU小时。

论文阅读之DeepSeek-Coder-V2 Breaking the Barrier of Closed-Source Models in Code Intelligence

David_house的博客

08-26

1837

介绍了一种开源专家混合 (MoE) 代码语言模型——DeepSeek-Coder-V2 特点：- 基于DeepSeek-V2 的中间检查点进一步预训练的，相比较于 DeepSeek-V2 ，其**编码**和**数学推理能力**更强，同时保持了通用语言任务中相当的性能 - 对编程语言的支持种类从 86 扩展到 338，同时上下文长度从 16K 扩展到 128K - 在标准基准评估中，DeepSeek-Coder-V2 在编码和数学基准测试中与 GPT4-Turbo、Claude

【论文阅读】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

qq_41502855的博客

01-21

3963

此外，DeepSeek-R1-Zero在MATH-500上的得分为95.9%，在GPQA Diamond上的得分为73.3%，在LiveCodeBench上的得分为50.0%。：DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的得分为55.5%，超过QwQ-32B-Preview。DeepSeek-R1-Distill-Qwen-32B在AIME 2024上的得分为72.6%，在MATH-500上的得分为94.3%，在LiveCodeBench上的得分为57.2%。

deepseek笔记本本地部署linux

02-10

### 如何在Linux系统上进行DeepSeek笔记本的本地部署 #### 准备工作为了成功完成DeepSeek R1在Linux环境下的本地部署，需先确认已安装必要的依赖项和工具。这通常包括Python及其开发库、pip包管理器以及其他可能由具体项目需求决定的支持软件。 #### 安装Docker 由于许多机器学习框架和服务都推荐使用容器化解决方案来简化配置过程并提高兼容性和稳定性，因此建议采用Docker作为运行环境的基础平台之一[^2]。对于Linux用户来说，可以通过官方文档指导轻松安装适合各自发行版版本的Docker引擎。 #### 获取DeepSeek镜像一旦有了可用的Docker环境之后，下一步就是拉取包含预训练模型及相关组件在内的DeepSeek Docker镜像文件。此操作可通过执行`docker pull deepseekai/deepseek:r1-latest`命令实现，其中标签部分指定了特定于R1版本的信息[^1]。 #### 启动服务拥有正确的镜像后，便可以利用如下所示的指令启动相应的容器实例： ```bash docker run -d \ --name=deepseek-notebook \ -p 8888:8888 \ -v /path/to/local/data:/workspace \ deepseekai/deepseek:r1-latest jupyter notebook --ip='0.0.0.0' --port=8888 --allow-root ``` 上述脚本中的参数解释： - `-d`: 表示以后台模式运行容器； - `--name`: 设置容器名称为`deepseek-notebook`； - `-p`: 将主机端口映射至容器内部的服务监听地址，默认情况下Jupyter Notebook会占用8888号TCP连接； - `-v`: 创建卷挂载点以便持久保存数据资料，此处假设外部路径位于`/path/to/local/data`目录下而目标位置则指向了容器内的`/workspace`区域； - 最后的几个选项用于指定启动时传递给Notebook进程的具体参数集合，确保其能够在适当条件下正常运作。 #### 访问Web界面当一切准备就绪之后，打开浏览器并通过输入形如`http://localhost:8888`这样的URL即可进入交互式的编程环境中去探索更多有关AI的知识点了！