- 博客(6)
- 收藏
- 关注
原创 【深度学习】Transformer(Attention Is All You Need)
本文介绍了Transformer模型的架构与核心组件。该模型完全基于注意力机制,摒弃了传统的CNN和RNN结构,具有更强的并行化能力和训练效率。模型采用编解码器结构,编码器由多头自注意力层、残差连接、层归一化和前馈网络组成。重点解析了自注意力机制的计算过程,包括查询、键、值的线性变换和缩放点积注意力公式。多头注意力通过分割嵌入维度到多个子空间并行计算,最后合并结果。模型还使用残差连接缓解梯度消失,采用层归一化加速训练。相比传统序列模型,Transformer能更好地处理长距离依赖,成为机器翻译等任务的新基准
2025-12-01 17:58:17
765
原创 【语音识别】Listen, Attend and Spell(LAS)
AED 是近十年(当前2025.10)ASR 任务中很重要的技术,思想来源于手写生成和机器翻译,利用注意力机制,帮助编解码器定位到对应的字符。LAS 代码可以参考。参考文献。
2025-10-28 23:44:35
718
原创 【语音识别】Sequence Transduction with Recurrent Neural Networks(RNN-T)
Sequence Transduction with Recurrent Neural Networks(RNN-T) 论文笔记
2025-06-10 01:46:29
1107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅