
LLM大模型学习
文章平均质量分 91
无风絮自飞飞
晚来天欲雪 能饮一杯无
展开
-
基于 Cherry Studio 部署硅基流动 DeepSeek 大模型:轻松实现本地推理
基于 Cherry Studio 部署硅基流动 DeepSeek 大模型:轻松实现本地推理原创 2025-02-07 06:30:00 · 2869 阅读 · 0 评论 -
Deep Seek大模型本地部署+AnythingLLM部署
Deep Seek大模型本地部署+AnythingLLM部署原创 2025-02-06 15:13:54 · 1023 阅读 · 0 评论 -
DeepSeek系列论文解读之——DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language
DeepSeek MoE:通向专家终极专精化的技术革命原创 2025-02-06 06:15:00 · 1964 阅读 · 0 评论 -
DeepSeek系列论文解读之——DeepSeek LLM Scaling Open-Source Language Models with Longtermism
当长期主义遇见社区智慧,或许这就是破解"AI摩尔定律"困境的关键密钥。原创 2025-02-05 06:15:00 · 2547 阅读 · 0 评论 -
人人可用的视觉理解引擎——DeepSeek Janus-Pro-7B多模态模型深度解读
Janus-Pro-7B作为一个开源项目,它的诞生源于开发团队希望通过分享知识和技术来促进整个行业的发展原创 2025-02-04 15:51:21 · 4865 阅读 · 0 评论 -
浅谈DeepSeek系列技术路线
架构设计:DeepSeek系列采用了多种先进的架构设计。例如,DeepSeek-V3采用了Multi-head Latent Attention (MLA)和DeepSeekMoE架构。MLA通过低秩压缩技术减少了推理时的Key-Value缓存,显著提升了推理效率;DeepSeekMoE则通过细粒度的专家分配和共享专家机制,实现了经济高效的训练。训练方法:DeepSeek采用多种先进的训练技术和方法,包括分布式训练(数据并行、模型并行、流水线并行)、混合精度训练、强化学习与多词元预测、持续学习与微调等。原创 2025-02-01 13:25:29 · 6823 阅读 · 0 评论 -
VSCode 中接入 DeepSeek 大模型:提升开发效率的利器
当DeepSeek大模型遇见VS Code:智能编程新姿势原创 2025-01-31 06:15:00 · 3576 阅读 · 0 评论 -
DeepSeek系列论文解读之DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
本文浅谈了DeepSeek-R1系列论文,探讨其如何通过强化学习提升大型语言模型的推理能力。DeepSeek-R1-Zero作为纯强化学习模型,虽在推理任务中表现出色,但存在语言混合等问题。为解决此问题,DeepSeek-R1引入冷启动数据微调、多阶段强化学习及拒绝采样等改进策略,显著提升了模型的推理性能,其在AIME 2024等任务上的表现已接近甚至超越行业领先水平。原创 2025-01-30 08:54:29 · 2939 阅读 · 0 评论 -
Ollama框架结合docker下的open-webui与AnythingLLM构建RAG知识库
Ollama框架结合open-webui与AnythingLLM构建RAG知识库(Building an RAG Knowledge Library using Ollama, open-webui, and AnythingLLM)原创 2024-12-10 17:25:34 · 1803 阅读 · 0 评论