深度学习中的序列与图结构表示技术
1. 堆叠双向长短期记忆网络(BiLSTM)
在深度学习中,堆叠双向长短期记忆网络(BiLSTM)是一种强大的模型结构。其中,$h_{t}^{(j)}$ 表示第 $j$ 层第 $t$ 个单词的输出隐藏向量,$H^{(j)}$ 表示第 $j$ 层整个序列的输出隐藏向量,$H$ 则是最终输出向量。$LSTM_{f}^{(j)}$ 和 $LSTM_{b}^{(j)}$ 分别表示第 $j$ 层从左到右和从右到左的 LSTM。不同层或不同方向的 LSTM 参数可以相同或不同,具体需根据经验确定。
2. 神经注意力机制
神经注意力机制是一种替代池化操作来聚合向量集的方法。它可以根据词级向量序列(如词嵌入、CNN、LSTM 和 GRU 输出)找到句子的单一向量表示。与池化不同,注意力机制会根据特定目标计算序列中向量的加权和。
例如,对于餐厅评价 “great service but the price is very high”,当关注服务时,由于 “great” 一词,评价为积极;当关注价格时,由于 “high” 一词,评价为消极。对于同一序列,注意力机制根据不同目标返回不同向量。
形式上,给定目标向量 $q$ 和内容向量列表 $H = [h_1, h_2, …, h_n]$,其中 $h_i \in \mathbb{R}^d$,$n$ 是序列长度,$d$ 是维度大小,定义注意力函数:
$c = Attention(q, H) = \sum_{i=1}^{n} \alpha_i h_i$
其中,$\alpha_i$ 是 $q$ 和 $h_i$ 之间的相关性得分,通过对得分进行归
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



