Multiway Attention Networks for Modeling Sentence Pairs

本文介绍了一种名为Multiway Attention Networks的模型,用于处理句子对任务。该模型通过四种不同的注意力机制,将查询信息融入回答中,实现对回答的查询感知建模。模型首先使用词嵌入和上下文嵌入表示句子,然后通过双向GRU进行建模。接下来,对两个句子的GRU表示进行四种相似度计算,得到加权表示。之后,模型通过门控机制筛选信息,使用GRU再次表示序列,进行注意力加权组合,并最终通过MLP进行预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Multiway Attention Networks for Modeling Sentence Pairs

模型架构:

Alt text

总体思想:

将query信息通过不同形式的attention加入到answer中,对answer进行query感知的建模,从而进行预测

1.数据输入

使用word embedding和language model表示的contextual embedding拼接表示,使用双向GRU对句子进行建模
Alt text

2.相似度计算

以上标c,b,d,m表示两个句子P和Q的双向GRU表示之间进行四种相似度计算,并且作为4种attention对于 Q 进行带权重的表示
Alt text

3.聚合(Aggregation)

(1)拼接Q 的combination attention表示 qtcq_t^cqtcP 在 t 时刻的隐状态htph_t^phtp (常规attention形式)
通过gate机制,进行信息筛选
Alt text
(2)而后使用GRU进行序列的再次表示
Alt text
Alt text
即对上面拼接后的向量,再一次用GRU进行表示,四个attention有四种这样的表示
(3)再一次使用attention,进行四种attention带权重的组合vav_ava为参数(这个有点不懂)
Alt text
(4)整合后的表示,再一次使用GRU进行建模
Alt text
Alt text

4.预测层

(1)对 Q 进行一个注意力再表示,引入参数 vqv^qvq
Alt text
(2)对 Q 的表示与 P 的表示进行attention
Alt text
最后将rpr_prp送入MLP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值