无风絮自飞飞-优快云博客

原创基于 Cherry Studio 部署硅基流动 DeepSeek 大模型：轻松实现本地推理

基于 Cherry Studio 部署硅基流动 DeepSeek 大模型：轻松实现本地推理

2025-02-07 06:30:00 2769

原创 Deep Seek大模型本地部署+AnythingLLM部署

Deep Seek大模型本地部署+AnythingLLM部署

2025-02-06 15:13:54 968

原创 DeepSeek系列论文解读之——DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language

DeepSeek MoE：通向专家终极专精化的技术革命

2025-02-06 06:15:00 1836

原创 DeepSeek系列论文解读之——DeepSeek LLM Scaling Open-Source Language Models with Longtermism

当长期主义遇见社区智慧，或许这就是破解"AI摩尔定律"困境的关键密钥。

2025-02-05 06:15:00 2411

原创人人可用的视觉理解引擎——DeepSeek Janus-Pro-7B多模态模型深度解读

Janus-Pro-7B作为一个开源项目，它的诞生源于开发团队希望通过分享知识和技术来促进整个行业的发展

2025-02-04 15:51:21 4681

原创浅谈DeepSeek系列技术路线

架构设计：DeepSeek系列采用了多种先进的架构设计。例如，DeepSeek-V3采用了Multi-head Latent Attention (MLA)和DeepSeekMoE架构。MLA通过低秩压缩技术减少了推理时的Key-Value缓存，显著提升了推理效率；DeepSeekMoE则通过细粒度的专家分配和共享专家机制，实现了经济高效的训练。训练方法：DeepSeek采用多种先进的训练技术和方法，包括分布式训练（数据并行、模型并行、流水线并行）、混合精度训练、强化学习与多词元预测、持续学习与微调等。

2025-02-01 13:25:29 6519

weixin_58022259的博客

原创基于 Cherry Studio 部署硅基流动 DeepSeek 大模型：轻松实现本地推理

原创 Deep Seek大模型本地部署+AnythingLLM部署

原创 DeepSeek系列论文解读之——DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language

原创 DeepSeek系列论文解读之——DeepSeek LLM Scaling Open-Source Language Models with Longtermism

原创人人可用的视觉理解引擎——DeepSeek Janus-Pro-7B多模态模型深度解读

原创浅谈DeepSeek系列技术路线

原创 VSCode 中接入 DeepSeek 大模型：提升开发效率的利器

原创 DeepSeek系列论文解读之DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

原创混合自回归移动平均（ARMA）模型以及实测数据模拟（python）

原创 Ollama框架结合docker下的open-webui与AnythingLLM构建RAG知识库

空空如也

空空如也