5、多视角注意力关系网络与基于会话的推荐模型研究

最新推荐文章于 2025-07-21 14:58:29 发布

fish

最新推荐文章于 2025-07-21 14:58:29 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏： KSEM 2023：知识科学与工程的新篇章文章标签：多视角注意力关系网络基于会话的推荐视觉问答

本文链接：https://blog.youkuaiyun.com/fish/article/details/149374927

KSEM 2023：知识科学与工程的新篇章专栏收录该内容

47 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多视角注意力关系网络与基于会话的推荐模型研究

在当今的人工智能领域，视觉问答和基于会话的推荐是两个备受关注的研究方向。前者旨在让机器理解图像并回答相关问题，后者则致力于根据用户当前会话为匿名用户提供个性化推荐。下面将详细介绍这两个领域的相关技术和研究成果。

多视角注意力关系网络（MVARN）

问题表示

对于问题的处理，使用简单的单向 LSTM 来获取隐藏状态。假设问题通过字典中的独热编码表示，问题长度为 T，隐藏单元为 512 个，隐藏状态的计算如下：
[h_t = LSTM (x_t), 1 \leq t \leq T]
将最后一步的隐藏状态作为问题表示：
[q = h_T \in R^{512}]

多视角关系模块

原始的关系网络将特征图 F 的每个像素特征视为一组“对象”，并计算对象之间关系的表示。为了更好地捕捉图像特征，提出了基于像素和通道视角的多视角关系模块。
- 像素视角 ：对象集表示为 (F_1 = { f_{i,j}|1 \leq i, j \leq n} \in R^{(H w)×C})，其中 (f_{i,j} \in R^C) 表示特征图 F 的第 i 行第 j 列，(n = H = W = 8)，(C = 64)。所有对象对的集合表示为：
[P = {p_{(i,j),(u,v)}|1 \leq i, j, u, v \leq n}]
其中 (p_{(i,j),(u,v)}) 是相应对象向量、位置信息和问题向量 q 的拼接，即 (p_{(i,j),(u,v)} = [f_{i,j}, i, j, f_{u,

会员秒杀 ¥9.9 重磅福利

超级会员免费看