
深度学习基础知识
文章平均质量分 95
AINLPer
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
万字长文!一文了解Transformer归一化,含【主流大模型归一化】的演变!
归一化(Normalization)在整体Transformer架构中并没有做太多的改进,但它对模型能否顺利训练,却有着很关键的作用。本文将带你一文了解归一化(Normalization),包括其背景、种类、Transformer归一化及源码、大模型常见归一化、大模型归一化位置等。原创 2025-04-15 09:26:45 · 621 阅读 · 0 评论 -
有深度!Transformer | 万字长文:详细了解前馈神经网络(FFN),内含对大模型的理解
FFN(Feed-Forward Network)扮演着至关重要的角色。本文将深入介绍FFN层的结构、数学原理、源码理解、在大模型中的应用等内容,旨在揭示其如何通过升维和降维操作增强模型的表达能力,以及其在Transformer中的独特作用。原创 2025-04-03 11:13:26 · 462 阅读 · 0 评论 -
万字长文!最全面的大模型Attention介绍,含DeepSeek MLA,含大量图示!
非常详细!万字长文带你了解Attention,从MHA到DeepSeek MLA,含大量图解!原创 2025-02-27 23:13:11 · 1206 阅读 · 0 评论 -
预训练模型微调 | 一文带你了解Adapter Tuning
前几天的一篇文章,给大家介绍了预训练模型的微调方法Prompt Tuning。《一文了解预训练模型 Prompt 调优》。今天再给大家介绍另外一种主流的预训练模型微调方法Adapter,并将Adapter与Prompt两种方法做了对比,希望能对你的论文写作有启发。原创 2022-10-24 00:55:20 · 3256 阅读 · 1 评论 -
从一维卷积、因果卷积(Causal CNN)、扩展卷积(Dilation CNN) 到 时间卷积网络 (TCN)
从一维卷积、因果卷积(Causal CNN)、扩展卷积(Dilation CNN) 到 时间卷积网络 (TCN)原创 2022-09-30 21:55:35 · 8715 阅读 · 1 评论 -
一文看懂逻辑回归(保姆级别 && 含源码)
一文看懂逻辑回归(保姆级别 && 含源码)原创 2022-09-18 17:43:29 · 560 阅读 · 0 评论 -
一文看懂线性回归(保姆级别 && 含源码)
一文看懂线性回归(保姆级别 && 源码)原创 2022-09-18 17:30:39 · 1277 阅读 · 0 评论