神经网络基础05-self-Attention

本文探讨了自注意力在SequenceLabeling任务中的关键作用,介绍了多头自注意以及如何结合PositionalEncoding处理序列位置信息。Transformer的encoder部分通过残差网络和层归一化增强模型性能,同时讲解了Transformer的解码器结构。重点展示了Transformer在处理自然语言理解和序列标注任务中的实际操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

输入输出

1.输入

在这里插入图片描述

2.输出

2.1每个向量是个标签,输入多少个,输出多少个

在这里插入图片描述

2.2整个序列是一个标签,比如说情感分析

在这里插入图片描述

2.3输出标签数量有model决定,比如说翻译

在这里插入图片描述

Sequence Labeling

自注意可以叠加在这里插入图片描述
在这里插入图片描述
计算关联的程度 α。常用的方法是点积,也是Transformer里用的方法
在这里插入图片描述
计算关联性:α1,2=q1∙k2,向量a1和向量a2的关联性。向量a1也会计算和自己的关联性。
q1=Wq*a1,向量a1乘
然后进行Soft-max或者relu操作得到α′
在这里插入图片描述
α是知道哪些向量跟a1最有关系。
抽取重要的资讯:计算b1

在这里插入图片描述
b就是输出
在这里插入图片描述
总:
self-attention的输入是I,输出是O
在这里插入图片描述
self-attention的一个变形,多头自注意:两个q代表两种不同的相关性,几个q就是几个head
在这里插入图片描述
如果输入序列的位置资讯很重要,需要用到Positional Encoding,为每一个位置设置一个vector。
在Transformer中,输入数据是一起处理的,就会忽略掉数据间的位置关系,所以需要一个位置编码。

位置编码可以学习

Transformer

在这里插入图片描述

encoder

在这里插入图片描述
在这里插入图片描述
residual残差网络:将经过self-attention得到的向量与之前经过位置编码的向量相加
残差网络可以缓解梯度消失,网络可以叠加。

层归一化

前馈神经网络(两层全连接)

decoder

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值