TransFormer第二章

Attention 机制
引入背景:在基于 Encoder - Decoder 的神经机器翻译中,传统 RNN/LSTM 存在长程依赖问题,无法有效处理长句。Bahdanau 等人于 2015 年提出 Attention 模型,考虑输入句子所有词并赋予相对重要性。
工作原理:核心是 “加权求和”,即分解输入、挑选重要部分、分配重要性、集中注意力、加权求和,让模型学会提纲挈领。

可以用“挑衣服”这个场景来说明注意力机制的工作原理。

假设你要从衣柜里挑选一件最适合的外套:

  1. 看颜色(Key):不同颜色的外套可能适合不同的场合,比如黑色更正式,亮色更休闲。 ➡️ 给适合场合的颜色打高分。

  2. 触摸材质(Query):你在寻找“舒适”的感觉。 ➡️ 对比每件外套的材质,看看哪些更柔软、透气。

  3. 综合结果(Value):颜色合适+材质舒适 = 选中它! ➡️ 整个过程就是“注意力权重计算”: 通过对颜色和材质的对比,决定关注哪些外套,从而找到最适合的一件。

这个例子说明了人如何通过特征对比来判断哪些信息更重要,从而做出选择。

用学习语言来表示就是四个阶段
1 死记硬背(通过阅读背诵学习语法练习语感) RNN 循环神经网络
2 提纲挈领(简单对话靠听懂句子中的关键词汇准确理解核心意思) attention的模型学会了提纲挈领
3 融会贯通(复杂对话懂得上下文指代、语言背后的联系,具备了举一反三的学习能力)  transformer

全局与局部注意力:全局注意力考虑所有输入,计算量大;局部注意力受软、硬注意力概念启发,只考虑部分编码输入,避免昂贵计算且易训练。实现时需预测对齐位置、定义注意力窗口、计算上下文向量,对齐方式有单调对齐和预测对齐。


Transformer 概述

  Transformer模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值