Transformer大模型加速简介(2)-Linformer

阿牛牛阿

已于 2024-11-24 09:45:30 修改

阅读量1.2k

点赞数 40

分类专栏：前沿技术--大模型文章标签： 1024程序员节人工智能 ai big data AIGC 机器学习 transformer

于 2024-10-24 23:03:23 首次发布

本文链接：https://blog.youkuaiyun.com/burstone/article/details/143221816

版权

前沿技术--大模型专栏收录该内容

16 篇文章

订阅专栏

Transformer模型，即《Attention is All your Need》这一大作自从被提出以来，已经成为自然语言处理（NLP）和计算机视觉等领域的核心架构（详见 https://blog.youkuaiyun.com/burstone/article/details/143135395）。然而，由于其对计算和存储的高要求，对于长序列的处理存在很大的性能开销。本文介绍一个提升Transformer模型效率的经典论文：Linformer，它是由Facebook AI Research团队在2020年提出（《Linformer: Self-Attention with Linear Complexity》），由于其线性复杂度，Linformer已经在多个自然语言处理任务中展现出了优秀的性能，包括语言建模、机器翻译、文本分类和长文本处理等。

Linformer是一种高效的Transformer模型变体，它通过引入线性复杂度的自注意力机制，显著降低了传统Transformer在处理长序列数据时的时间和空间复杂度。Linformer的核心创新在于将自注意力矩阵从O(n^2)的时间和空间复杂度降低到O(n)，使其能够更有效地处理长序列数据。Transformer和Linformer都是处理序列数据的深度学习模型，但它们在自注意力（Self-Attention）机制的实现上存在一些关键差异。以下是这两种模型的主要区别：

Transformer与Linformer

Transformer

Transformer模型因其出色的性能而被广泛应用于各种NLP任务，如机器翻译、文本摘要、问答系统等。具有如下的特点：

自注意力机制：在标准的Transformer模型中，自注意力层计算每个位置的注意力权重，其时间复杂度为O(n^2)，其中n是序列长度。这意味着计算量随着输入序列长度的增加而呈二次方增长。
全连接：Transformer中的自注意力是全连接的，即序列中的每个元素都会与其他所有元素计算注意力分数。
编码器-解码器架构：Transformer通常由编码器和解码器组成，编码器处理输入序列，解码器生成输出序列。
层叠结构：Transformer模型通常由多个相同的层堆叠而成，每层都包含自注意力和前馈神经网络（Feed-Forward Neural Network）。

Linformer

Linformer主要对上述transformer中的第1与第2点进行了优化，保留第3与第4点中的架构；可以解决传统的Transformer模型中可能会遇到性能瓶颈。介绍如下：

线性自注意力：Linformer通过低秩分解将自注意力机制的时间和空间复杂度从O(n^2)降低到O(n)，使得模型能够更高效地处理长序列。
标准Transformer中的自注意力机制计算如下：

Attention(Q, K, V) = softmax(QK^T / √d)V

其中Q、K、V分别是查询、键和值矩阵，维度均为n×d。这个计算过程的时间和空间复杂度都是O(n^2)。Linformer通过引入两个投影矩阵E和F (维度均为k×n),将K和V投影到一个较低的维度k：

K' = EK, V' = FV

然后用K’和V’替代原始的K和V进行注意力计算：

Attention(Q, K', V') = softmax(QK'^T / √d)V'

这样，注意力矩阵的维度就从n×n变为了n×k,复杂度降为O(nk)。当k固定时，复杂度就变成了O(n)

局部敏感哈希：Linformer使用局部敏感哈希（LSH）或其他方法来近似长序列的自注意力，从而实现线性复杂度。
固定长度：由于线性化自注意力的方法通常需要固定或限制序列长度，Linformer在处理动态长度的序列时可能不如Transformer灵活。
参数共享：Linformer通过在不同层或头之间共享参数来进一步减少模型的参数量，提高效率。

实例

pytorch目前集成了linformer的实现，下例展示了对一个长度为4096的输入序列进行处理。

import torch
from linformer import LinformerLM
model = LinformerLM(
    num_tokens = 20000,
    dim = 512,
    seq_len = 4096,
    depth = 12,
    heads = 8,
    k = 256,
    one_kv_head = True,
    share_kv = False
)
x = torch.randint(0, 20000, (1, 4096))
output = model(x)  # (1, 4096, 20000)

小结

Linformer在处理长序列时比Transformer更高效，因为它的自注意力机制具有线性复杂度。Transformer在处理不同长度的序列时更加灵活，而Linformer可能需要对序列长度进行限制。最后，对于短到中等长度的序列，Transformer可能仍然是更好的选择，因为它的全连接自注意力能够捕捉更丰富的上下文信息。而对于非常长的序列，Linformer的优势则更加明显，因而实际应用取决于不同的场景。