
大模型实战专栏
文章平均质量分 94
实战与理论相结合!
AI 菌
算法工程师一枚,优快云博客专家;NLP、CV、语音算法跨界选手,欢迎一起交流学习!
展开
-
Qwen2.5大模型解读
2023年8月,阿里首次开源通义千问第一代模型Qwen-7B,这是一个有70亿参数的通用语言模型。原创 2025-03-19 19:23:59 · 831 阅读 · 0 评论 -
基于GLM4大模型的Lora微调实战
手把手大模型微调实战教程:从免费GPU环境搭建、到模型微调与部署,轻松学会!原创 2025-03-16 00:20:12 · 943 阅读 · 0 评论 -
【DeepSeek系列】05 DeepSeek核心算法改进点总结
DeepSeek系列核心算法总结:4大改进点+2个思考!原创 2025-02-24 23:36:11 · 2236 阅读 · 0 评论 -
【DeepSeek系列】01 DeepSeek-R1 快速入门
2024年底,DeepSeek 相继推出了其第一代推理大模型:DeepSeek-R1-Zero 和 DeepSeek-R1。是一个通过大规模强化学习(RL)训练的模型,训练过程中没有使用监督微调(SFT)作为初步步骤。该模型在推理任务上表现出色,通过强化学习,自然涌现出许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero 也面临一些挑战,例如无休止的重复、可读性差以及语言混杂等问题。为了解决这些问题并进一步提升推理性能,进一步推出了,该模型在强化学习之前引入了冷启动数据。原创 2025-02-06 00:06:52 · 2471 阅读 · 0 评论 -
【DeepSeek系列】02 DeepSeek-V3 技术解读
一文快速了解DeepSeek-V3技术亮点!原创 2025-02-17 00:38:43 · 914 阅读 · 0 评论 -
【DeepSeek系列】03 DeepSeek-R1-Zero:在基础模型上进行纯强化学习
DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,而无需先进行有监督的微调(SFT),展示了显著的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。原创 2025-02-19 02:01:22 · 725 阅读 · 0 评论 -
【DeepSeek系列】04 DeepSeek-R1:带有冷启动的强化学习
DeepSeek-R1-Zero的提出,展现了其强大的推理能力,但是它也有一些缺点,例如可读性差和语言混用。为了解决这些问题并进一步提升推理性能,进一步推出了 DeepSeek-R1,它在 RL 之前引入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。原创 2025-02-19 23:55:07 · 896 阅读 · 0 评论