大模型
文章平均质量分 94
加菲大杂烩
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MiniMax-M1论文深度解读—CISPO
本文MiniMax-M1的技术报告进行了深度解读,并以举例的方式清晰说明CISPO的技术优势,让你在不是很了解PPO的情况下也能学会CISPO的技术改进。原创 2025-07-01 01:01:58 · 789 阅读 · 0 评论 -
Qwen3 Embedding 论文详细解读
Qwen3-Embedding 技术报告深度解析原创 2025-06-23 00:23:08 · 1155 阅读 · 0 评论 -
【DeepSeek系列】逐行讲解MLA朴素+吸收矩阵代码全新实现
这篇文章带你了解大模型注意力机制是如何一步步优化的。从MHA、MQA和GQA的演变出发,到如今deepseek最喜欢的MLA技术。不只是理论讲解,我用图解和代码示例,一步步拆解那些复杂的矩阵计算,让你真正弄懂MLA的工作原理和优化思路。原创 2025-05-03 14:43:36 · 1666 阅读 · 1 评论 -
【DeepSeek三部曲】DeepSeek-R1论文详细解读
详细讲解DeepSeek-R1技术报告,按照论文的顺序逻辑来详细解读,不缺少任何有用的原文内容,去掉没有意义的话来精简论文,并增加论文模糊知识点的内容思考。原创 2025-02-17 00:43:57 · 1628 阅读 · 0 评论 -
MiniMax-01中Lightning Attention的由来(线性注意力进化史)
MiniMax-01首次将线性注意力应用于超大规模模型,其核心技术是Lightning Attention。本文探讨线性注意力的起源、长期未能大规模应用的原因,以及Lightning Attention如何突破限制,实现高效计算,为大规模模型训练提供新思路。原创 2025-01-26 20:30:00 · 3187 阅读 · 0 评论 -
Transformers库的模板困境:apply_chat_template的版本变迁与解决方案
在 Transformers 库高版本中,默认对话模板的移除导致 apply_chat_template 无法正常使用。本文通过分析 command-r+ 等旧版模型的源码,找到了原有的默认模板定义,并介绍了如何在代码中显式传入模板的方法,提供了一个简单且向后兼容的解决方案。原创 2025-01-14 20:24:27 · 6239 阅读 · 0 评论 -
逐行讲解大模型流式输出 streamer 源码
本文详细讲解了大模型流式输出的源码实现,包括TextStreamer 基础流式输出和TextIterateStreamer 迭代器流式输出。此外,还提供了两种主流Web框架(Streamlit和Gradio)的部署方案,设计前端界面进行大模型流式输出对话演示。模型提供了本地加载以及vllm部署两种方法,帮助读者快速应用部署大模型。原创 2025-01-01 14:50:16 · 4359 阅读 · 10 评论 -
Cake:双向并行KV 缓存,加速LLM推理
深入理解大模型推理部署的细节,参考Cake文章学习不一样的模型部署思路,加深大模型的理解。原创 2025-01-01 14:34:52 · 1430 阅读 · 0 评论 -
逐行讲解transformers中model.generate()源码
本文逐行解析transformers源码中的.generate()函数,让你知道除了模型生成还做了哪些额外操作,加深你对底层代码的理解原创 2024-10-23 01:56:54 · 11017 阅读 · 7 评论 -
逐行讲解大模型解码超参数大全(temperature、top-k、top-p等所有参数)
大模型解码策略除了temperature、top-k、top-p,你还知道哪些呢,本文全面解析transformers源码中的所有策略原创 2024-10-23 01:54:11 · 3768 阅读 · 1 评论
分享