大模型微调
文章平均质量分 92
诺坎普的风间
最喜居正无赖,本色沧海横流
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
直观理解注意力机制
本文系统讲解了注意力机制的核心概念,包括传统注意力机制、自注意力机制和多头注意力机制。重点阐述了Q/K/V向量的来源及其可训练投影矩阵的作用,详细说明了注意力权重计算过程(包括缩放点积和softmax归一化)。在多头注意力部分,解释了如何通过多个注意力头并行处理信息,并将各头输出拼接后通过线性变换还原维度。文章还分析了维度设计考虑因素(如dk=dv=dm/h),完整呈现了从输入到输出的计算流程,为理解现代Transformer架构奠定了基础。原创 2025-11-08 20:13:17 · 517 阅读 · 0 评论 -
(一)基于云平台微调大模型,以deepseek-coder-6.7b为例
如下图,我们进入jupyter界面,然后创建笔记本。原创 2025-04-09 22:54:27 · 1194 阅读 · 0 评论
分享