时间序列数据预测,Transformer代码介绍(1)--位置编码

传统的位置编码如下:

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=5000):
        super().__init__()
        pe = torch.zeros(max_len, d_model)         #制作全零矩阵,规定
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-np.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_buffer('pe', pe)

    def forward(self, x):
        return x + self.pe[:x.size(0), :]

       使用Transformer进行时间序列数据的预测,一般是需要位置编码对时间序列数据建立位置上的确定和关联。

       位置编码作用是提供序列中每个位置的信息,可以使模型关注到数据与数据之间的关系,从而更好的了解数据变化的趋势。

       在位置编码中,有较多的位置编码方式,有绝对位置编码、相对位置编码、以及目前很火的DeepSeek中使用的RoPE旋转位置编码等,在针对数据进行位置编码时,应注意数据之间的关联,不同的位置编码适应不同的数据变化趋势。

       这里介绍传统的位置编码-绝对位置编码,讲解一下代码及意义。

1、制作全零矩阵

pe = torch.zeros(max_len, d_model)  

        这是定义(max_len,d_model)规格的全零矩阵,用于放置数据的位置信息,在时间序列数据预测中,max_len相当于时间步,d_model相当于每个时间数据样本的维度大小。

2、数据的位置编号

position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)

       创建一个从 0 到 max_len-1 的整数序列,并将它们进行扩维,转化为形状为 [max_len, 1] 的列向量。这个向量表示每个位置的编号。即,对时间序列数据进行从0到 max_len-1的标记,这样每一个数据都有一个编号,方便用于之后的计算。

3、生成位置编码频率

div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-np.log(10000.0) / d_model))

       这里是计算一个用于缩放的位置编码的分母项。通过不同的频率(分母项)来生成位置编码,使得每个位置的编码在不同的维度上具有不同的周期性变化。

      torch.arange(0, d_model, 2) 生成一个 从 0 开始,步长为 2 的整数序列,直到 d_model 之前的数值。然后转换为浮点数。-np.log(10000.0) / d_model),是为了控制不同维度的频率变化,使得每个维度的频率递减,确保模型能有效的处理不同位置的时间序列数据。、

   div_term,是一个张量,代表着相同的维度下的频率值,不同的维度具有不同的频率值。

4、位置编码

pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)

       将不同维度下的不同位置相乘,就得到了每一个时间序列数据独有的位置值,这个位置值就代表着这个数据在整体中的位置信息,即位置编码信息。

5、维度变换

 pe = pe.unsqueeze(0).transpose(0, 1)

      通过进行维度变换和转置,变换为[max_len,1,d_model],使得这个位置信息可以加在时间数据当中

6、模块参数固定

self.register_buffer('pe', pe)

       将 pe 注册为模型的一个不可训练的参数,并使其在训练过程中保持不变。register_buffer 使得 pe 成为模型的一部分,但它不会参与反向传播计算(即不会更新)

7、前向反馈

    def forward(self, x):
        return x + self.pe[:x.size(0), :]

        x,输入的张量,形状通常为 [sequence_length, batch_size, d_model],代表输入序列中的每个时间步.

        最后,将输入的张量 x 与位置编码 pe 相加。这样做的目的是将每个输入位置的位置信息添加到输入特征中,使模型能够感知序列中的顺序关系。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值