TransFormer第二章

czrbarry

于 2025-02-15 20:56:51 发布

阅读量1.3k

点赞数 23

CC 4.0 BY-SA版权

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/czrbarry/article/details/145656073

Attention 机制
引入背景：在基于 Encoder - Decoder 的神经机器翻译中，传统 RNN/LSTM 存在长程依赖问题，无法有效处理长句。Bahdanau 等人于 2015 年提出 Attention 模型，考虑输入句子所有词并赋予相对重要性。
工作原理：核心是 “加权求和”，即分解输入、挑选重要部分、分配重要性、集中注意力、加权求和，让模型学会提纲挈领。

可以用“挑衣服”这个场景来说明注意力机制的工作原理。

假设你要从衣柜里挑选一件最适合的外套：

看颜色（Key）：不同颜色的外套可能适合不同的场合，比如黑色更正式，亮色更休闲。 ➡️ 给适合场合的颜色打高分。
触摸材质（Query）：你在寻找“舒适”的感觉。 ➡️ 对比每件外套的材质，看看哪些更柔软、透气。
综合结果（Value）：颜色合适＋材质舒适 = 选中它！ ➡️ 整个过程就是“注意力权重计算”：通过对颜色和材质的对比，决定关注哪些外套，从而找到最适合的一件。

这个例子说明了人如何通过特征对比来判断哪些信息更重要，从而做出选择。

用学习语言来表示就是四个阶段
1 死记硬背（通过阅读背诵学习语法练习语感） RNN 循环神经网络
2 提纲挈领（简单对话靠听懂句子中的关键词汇准确理解核心意思） attention的模型学会了提纲挈领
3 融会贯通（复杂对话懂得上下文指代、语言背后的联系，具备了举一反三的学习能力） transformer

全局与局部注意力：全局注意力考虑所有输入，计算量大；局部注意力受软、硬注意力概念启发，只考虑部分编码输入，避免昂贵计算且易训练。实现时需预测对齐位置、定义注意力窗口、计算上下文向量，对齐方式有单调对齐和预测对齐。

Transformer 概述

Transformer模型

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。