严格禁止转载
版权所有 © 2025 刘丹。
本文的全部内容(包括文字、插图、表格、图表、代码示例等)受版权法保护。未经版权所有者书面明确许可,任何单位或个人不得以任何形式(包括但不限于复印、转载、摘编、影印、扫描、改编、录入计算机检索系统、互联网传播、网络下载或以其他方式使用)复制、传播或改编本文的全部或任何部分。
违者将依法追究法律责任。
如需转载或引用本书内容进行教学、研究或出版,请通过以下联系方式申请许可:
联系人:刘丹;电子邮件:3549233510@qq.com。
本章集中于 自注意力(self-attention)及 Transformer 架构的数学原理:从点积注意力的精确矩阵形式与梯度推导出发,解释缩放因子与多头的代数意义,详细讨论位置编码(绝对 / 相对 / bias 型)的数学效果,分析归一化与残差对训练稳定性的影响,推导并比较若干长序列 / 高效化注意力(Linformer / Performer / Reformer / Longformer 等)的核心近似与复杂度界,讨论稀疏/可微分注意力(sparsemax / entmax)与谱性质,并给出可直接实现的“简化 Transformer”算子与注意力矩阵谱分析方法(含关键公式与推导)。重要结论处给出参考文献。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



