- 博客(10)
- 收藏
- 关注
原创 基于 Cherry Studio 部署硅基流动 DeepSeek 大模型:轻松实现本地推理
基于 Cherry Studio 部署硅基流动 DeepSeek 大模型:轻松实现本地推理
2025-02-07 06:30:00
2769
原创 DeepSeek系列论文解读之——DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language
DeepSeek MoE:通向专家终极专精化的技术革命
2025-02-06 06:15:00
1836
原创 DeepSeek系列论文解读之——DeepSeek LLM Scaling Open-Source Language Models with Longtermism
当长期主义遇见社区智慧,或许这就是破解"AI摩尔定律"困境的关键密钥。
2025-02-05 06:15:00
2411
原创 人人可用的视觉理解引擎——DeepSeek Janus-Pro-7B多模态模型深度解读
Janus-Pro-7B作为一个开源项目,它的诞生源于开发团队希望通过分享知识和技术来促进整个行业的发展
2025-02-04 15:51:21
4681
原创 浅谈DeepSeek系列技术路线
架构设计:DeepSeek系列采用了多种先进的架构设计。例如,DeepSeek-V3采用了Multi-head Latent Attention (MLA)和DeepSeekMoE架构。MLA通过低秩压缩技术减少了推理时的Key-Value缓存,显著提升了推理效率;DeepSeekMoE则通过细粒度的专家分配和共享专家机制,实现了经济高效的训练。训练方法:DeepSeek采用多种先进的训练技术和方法,包括分布式训练(数据并行、模型并行、流水线并行)、混合精度训练、强化学习与多词元预测、持续学习与微调等。
2025-02-01 13:25:29
6519
原创 DeepSeek系列论文解读之DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
本文浅谈了DeepSeek-R1系列论文,探讨其如何通过强化学习提升大型语言模型的推理能力。DeepSeek-R1-Zero作为纯强化学习模型,虽在推理任务中表现出色,但存在语言混合等问题。为解决此问题,DeepSeek-R1引入冷启动数据微调、多阶段强化学习及拒绝采样等改进策略,显著提升了模型的推理性能,其在AIME 2024等任务上的表现已接近甚至超越行业领先水平。
2025-01-30 08:54:29
2860
原创 混合自回归移动平均(ARMA)模型以及实测数据模拟(python)
SARIMA模型是处理季节性时间序列数据的强大工具。通过适当的数据预处理和参数选择,我们可以构建一个有效的预测模型、
2024-12-17 08:35:40
827
原创 Ollama框架结合docker下的open-webui与AnythingLLM构建RAG知识库
Ollama框架结合open-webui与AnythingLLM构建RAG知识库(Building an RAG Knowledge Library using Ollama, open-webui, and AnythingLLM)
2024-12-10 17:25:34
1722
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人