深度学习_用LSTM+Attention与Self-Attention

Scc_hy

已于 2022-11-21 01:19:14 修改

阅读量4.1k

点赞数 5

分类专栏：深度学习文章标签：深度学习 lstm pytorch

于 2022-10-23 23:57:28 首次发布

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.youkuaiyun.com/Scc_hy/article/details/127483594

版权

深度学习专栏收录该内容

21 篇文章

订阅专栏

本文探讨了使用深度学习中的LSTM模型进行序列预测，并介绍了如何优化LSTM权重初始化以获得与Keras类似的效果。此外，作者还引入了注意力机制，通过self-attention增强模型对序列周期和相似性的捕捉能力。网络结构包括LSTM层和注意力层，其中注意力层通过计算序列元素间的关系并进行归一化来提取关键特征。同时，文章还简要概述了self-attention的工作原理及其矩阵乘法表示，以及multi-head self-attention的概念。最后，提到了位置编码的重要性，以补充attention缺乏的位置信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔者在重新尝试用深度学习的各个模型对序列进行预测，就LSTM进行一些使用记录

一、一些优化

和keras一样的权重初始化
- 有时候我们torch训练的LSTM，没有keras好，可以将权重按keras的方式进行初始化
增加attention 捕捉序列的周期与相似性
尝试用self-attention

二、网络结构LSTM+Attention

import torch
from torch import nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, TensorDataset
import typing as typ
import numpy as np
from tqdm import tqdm
from sklearn.model_selection import KFold
from collections import OrderedDict


class LSTMRegressor(nn.Module):
    def __init__(self, input_size, hidden_size=128):
        super(LSTMRegressor, self).__init__()
        self.lstm = nn.LSTM(input_size, hidden_size, batch_first=True, bidirectional=False)
        self.header = nn.Sequential(OrderedDict([
            ('fc1', nn.Linear(hidden_size, 32)),
            ('relu1', nn.ReLU(inplace=True)),
            ('dropout', nn.Dropout(0.01)),
            ('fc2', nn.Linear(32, 1)),
            ('relu2', nn.ReLU(inplace=True)),
        ]))
        self.__weight_init()
        # attention
        self.attn_ly = nn.Linear(hidden_size, 1)
        self.sft = nn.Softmax(dim=1)

    def attention_net(self, lstm_output):   
        # print('lstm_output', lstm_output.shape) # batch_size, time_step, hidden_size * layer_size
        attn_tanh = torch.tanh(self.attn_ly(lstm_output))  # batch_size, time_step, 1
        sft_res = self.sft(attn_tanh) # batch_size, time_step, 1
        attn_output = torch.sum(sft_res * lstm_output, 1) # batch_size, hidden_size
        return attn_output

    def forward(self, x):
        x_out, (hn, cn) = self.lstm(x)
        x_out = self.attention_net(x_out)
        x_out = self.header(x_out)
        return x_out

    def __weight_init(self):
        """
        Tensorflow/Keras-like initialization
        """
        for name, p in self.named_parameters():
            if 'lstm' in name:
                if 'weight_ih' in name:
                    nn.init.xavier_uniform_(p.data)
                elif 'weight_hh' in name:
                    nn.init.orthogonal_(p.data)
                elif 'bias_ih' in name:
                    p.data.fill_(0)
                    # Set forget-gate bias to 1
                    n = p.size(0)
                    p.data[(n // 4):(n // 2)].fill_(1)
                elif 'bias_hh' in name:
                    p.data.fill_(0)
            elif 'fc' in name:
                if 'weight' in name:
                    nn.init.xavier_uniform_(p.data)
                elif 'bias' in name:
                    p.data.fill_(0)

三、Self-attention

3.1 原理

考虑全部序列
在这里插入图片描述
计算序列中元素之间的关系 $\alpha$ ，存在较多的方法进行计算，一种是直接进行乘积Dot-product，一种是concat后做一个激活函数。在self-attention中使用的是左边的进行乘积Dot-product的方法。

以序列第一个值为例，输入 $q_1=\bf W^q\bf a^1$ ，计算每个值和第一个值之间的相关性（用k矩阵抽取核心 $\bf K^2=\bf W^2 \bf a^2;$ 然后与q矩阵相乘 $\alpha _{1, 2}=\bf K^2 q_1$ ），抽取出相关性后，用soft-max进行归一化，增大值之间的距离。
在这里插入图片描述
有了相关性之后对每个值( $v^2=W^va^2\bf$ )都取相应相关性( $\bf v^2 \alpha^/_{1, 2}$ )的特征做累和
( $b^1=\sum_i{\alpha^/_{1,i}\bf v^i}$ )
然后依次的获取 $b^2\ b^3\ b^4$

在这里插入图片描述

3.2 原理转矩阵乘法

$a^i$ 合并成矩阵 $I$ ，所以

$K^i$ 可以合并成 $K=W^kI$
$q^i$ 可以合并成 $Q=W^qI$
$v^i$ 可以合并成 $V=W^qI$
$\alpha _{i, j}$ 可以合并成 $A=K^TQ$
$\alpha^/ _{i, j}$ 可以转换成 $A^/$
$b^i$ 最终的输出可以转换成 $O=VA^/$

所以未知参数仅仅 $W^k \ W^q \ W^v$

3.3 Multi-head self-attention

其实就是多个q去找相关性。

$q^i$ -> $Q=W^qI$
- 分别用矩阵乘 $Q$ 以得到两个Q
- $Q^1 = W^{q.1}Q$
- $Q^2 = W^{q, 2}Q$
$K^i$ -> $K=W^kI$
- 分别用矩阵乘 $K$ 以得到两个K
- $K^1 = W^{k.1}K$
- $K^2 = W^{k, 2}K$
$V^i$ -> $V=W^vI$
- 分别用矩阵乘 $V$ 以得到两个V
- $V^1 = W^{v.1}V$
- $V^2 = W^{v, 2}V$
算出两个O
- $A^/_1= softmax({K^{1}}^TQ^1) \ \ \ O^1=V^1{A^1}^/$
- $A^/_2= softmax({K^{2}}^TQ^2) \ \ \ O^2=V^2{A^2}^/$
然后concat在一起
- $O=W^Oconcat(O^1, O^2)$