25、深入探索大语言模型

深入探索大语言模型

1. 注意力机制

1.1 列头注意力

列头注意力相当于步长(间隔)为 $l \approx \sqrt{n}$ 的单向扩张注意力(行头同理)。假设输入图像为正方形,列头会跳过相当于一行($\sqrt{n}$)的距离,并关注一维序列虚拟列中前一个单元格代表的位置。列跨步注意力可总结为:$(i - j) \bmod l = 0$。这种方案在处理二维输入数据(如图像)时表现最佳,因为行/列分割反映了底层数据结构,其时间复杂度为 $O(n \times l \times d) \approx O(n \times \sqrt{n} \times d)$。

1.2 固定注意力

固定注意力关注固定列以及最新列元素之后的元素,在处理非周期性数据(如文本)时表现更好。它由两个不同头的机制组合而成:
- 列头 :关注固定列,该列不一定与当前输入令牌 $t_i$ 所在列匹配。多个输入令牌可关注同一列,从而能关注序列的整个长度。列机制可总结为:$l - c \leq j \bmod l \leq l$,其中 $c$ 为参数(8、16 或 32)。例如,当 $l = 64$ 且 $c = 16$ 时,所有大于 64 的位置可关注 48 - 64 的位置,大于 128 的位置可关注 112 - 128 的位置,依此类推。
- 行头 :第一个头与跨步注意力中的行头类似,但它只关注当前列头的位置,提供局部上下文。可总结为:$\lfloor\frac{j}{l}\rfloor = \lfloor\frac{i}{l}\rfloor$,其中 $\lfloor\ \rflo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值