
大模型
文章平均质量分 81
Elwin Wong
专注人工智能技术的研究和应用
展开
-
大模型监督微调SFT训练代码
一个简单的大模型监督微调SFT训练代码,可用于快速验证设备环境、大致效果、体验大模型SFT等。原创 2025-03-07 15:22:04 · 176 阅读 · 0 评论 -
用SGLang部署的DeepSeek R1推理时没有输出<think>标签
DeepSeek R1推理时开头没有输出<think>标签原创 2025-02-27 22:19:55 · 1901 阅读 · 1 评论 -
DeepSeek-R1 蒸馏
蒸馏(Distillation,又称模型蒸馏、数据蒸馏、知识蒸馏等)是一种通过大模型(教师模型)生成或优化训练数据,使小模型(学生模型)能够高效学习的技术,其核心目标是降低训练成本并提升小模型的性能。DeepSeek-R1发布时,也顺便发布了使用其蒸馏数据训练的小参数模型,这些小参数模型在推理性能上也有了很大的提升,也间接证明了DeepSeek-R1模型的推理能力很强,能从其中提炼出高质量的数据。原创 2025-02-27 21:30:31 · 322 阅读 · 0 评论 -
DeepSeek-R1的一些影响
DeepSeek-R1火爆全球,肯定不仅仅是开源了一篇论文、一个模型那么简单,更多的是其带来的一些影响,这里简单聊聊。原创 2025-02-26 22:14:45 · 728 阅读 · 0 评论 -
强化学习演进:GRPO 从何而来
强化学习(Reinforcement Learning, RL)是机器学习的一个分支,其核心是让智能体(Agent)通过与环境(Environment)的交互,学习如何采取最优行动(Action)以最大化长期累积奖励(Reward)。原创 2025-02-26 17:03:42 · 1212 阅读 · 0 评论 -
LlamaIndex中使用本地LLM和Embedding
LlamaIndex默认会调用OpenAI的text-davinci-002模型对应的API,用于获得大模型输出,这种方式在很多情况下对国内用户不太方便,如果本地有大模型可以部署,可以按照以下方式在LlamaIndex中使用本地的LLM和Embedding原创 2025-02-22 22:41:20 · 423 阅读 · 0 评论 -
DeepSeek系列模型概览
DeepSeek系列各模型重点概览原创 2025-02-22 19:38:16 · 1504 阅读 · 0 评论 -
火山引擎火山方舟平台微调SFT——赋予通用大模型深度思考能力
本文介绍如何使用火山引擎上的火山方舟平台对大模型进行微调,使大模型能够服务于特定的场景。这里主要演示了使用长 CoT 的推理数据对 doubao-lite-32k 进行监督微调(SFT),以使 doubao-lite 大模型具备类似 DeepSeek-R1 的深度思考和推理能力。原创 2025-02-21 18:15:00 · 882 阅读 · 0 评论 -
【DeepSeek 系列】DeepSeek-R1
通过强化学习激励LLM的推理能力DeepSeek 的第一代推理模型,迈出了使用纯强化学习(RL)来提高语言模型推理能力的第一步,探索 LLM 在没有任何监督数据的情况下开发推理能力的潜力,重点关注它们通过纯 RL 过程进行自我进化。这也是第一项验证了 LLM 的推理能力可以纯粹通过 RL 来激励而无需 SFT 的开放式研究。原创 2025-02-21 14:27:03 · 967 阅读 · 0 评论 -
【DeepSeek 系列】DeepSeek-V3
延续了 DeepSeek-V2 的总体架构,将模型规模扩展到 671B(37B 激活),调整了专家路由的负载均衡策略,从使用辅助损失到使用无辅助损失的负载平衡策略以减少辅助损失对模型性能的影响,还使用了多 token 预测以实现更好更快的模型训练和推理。原创 2025-02-21 10:24:22 · 876 阅读 · 0 评论 -
【DeepSeek 系列】DeepSeekMoE
基于创新的 MoE 架构,先训练了 2B 参数量的模型,验证了该架构的有效性,然后扩展到 16B 规模,评测结果同样展示了该架构的有效性和可扩展性。基于 DeepSeekMoE 16B 进行监督微调 SFT 构建了聊天模型证明了对 MoE 模型进行 SFT 能够进一步提升效果。最后更进一步将模型扩展到 145B 的规模。原创 2025-02-20 17:39:35 · 1047 阅读 · 0 评论 -
【DeepSeek 系列】DeepSeek LLM
用长期主义扩展开源语言模型:通过对 Scaling Laws 的重新深入研究,解决之前这方面工作中存在的问题,并提出新的观点和发现,以此来指导大模型后续的开发和扩展原创 2025-02-20 16:41:32 · 1107 阅读 · 0 评论 -
LoRA微调
LoRA论文阅读理解原创 2024-04-14 23:29:45 · 1155 阅读 · 0 评论 -
GPT演变:从GPT到ChatGPT
简单说明了从GPT到ChatGPT的演进过程原创 2024-04-14 11:01:22 · 1063 阅读 · 0 评论 -
通义千问Qwen2架构解析
通义千问大模型Qwen2代码解析原创 2024-04-12 18:02:49 · 6467 阅读 · 0 评论 -
vLLM部署Qwen1.5-32B-Chat
使用大模型推理和服务部署框架vLLM部署Qwen1.5-32B-Chat,并记录在这过程中遇到的问题及解决方法原创 2024-04-12 17:02:31 · 3826 阅读 · 0 评论