MUTAN:Multimodal Tucker Fusion For Visual Question Answering

最新推荐文章于 2025-01-03 17:27:21 发布

原创

最新推荐文章于 2025-01-03 17:27:21 发布 · 2.1k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #计算机视觉

MUTAN:Multimodal Tucker Fusion For Visual Question Answering

0.写在前面

在介绍本篇论文前，我们首先介绍什么是矩阵分解，tucker张量分解，双线性模型？？

0.1 矩阵分解

矩阵分解大致三个作用: 降维处理，稀疏数据填充，隐形关系挖掘。下面以推荐系统中常用的矩阵分解为例。

推荐系统中，给定一个大小为 $m * n$ 的评分矩阵R，元素 $r_{ij}$ 表示用户i对商品j的评分值。
当R的秩 $k = r a n k (R) < < m i n (m, n)$ ，并且R可表示成:
$R=UV^T$ 其中，U是大小为mxk的用户因子矩阵，V是nxk项因子矩阵，这一过程就是矩阵分解
当 $k < r a n k (R)$ 时，我们将矩阵分解看作是低秩逼近问题(low-rank),则分解过程变为：
$\approx UV^T$ ，U和V与前面含义相同，显然，整体误差为残差方程 $R-UV^T$ 中所有元素的平方和，即 $R-UV^T||^2$
在实际应用中，这里的R往往是一个稀疏矩阵，因为如果有1000个用户，1000个商品，构造评分矩阵，不需要每个用户把每个商品都买一遍??

矩阵分解在推荐系统中被称为隐性因子模型，定义用户i在环境c下对项j进行评分为 $r_{ijc}$ ，一个特殊的张量分解结构，即大小mxnxd的评分张量R分解会得大小为用户因子矩阵U:mxk,项因子矩阵V:nxk,环境因子矩阵W:dxk，这就是隐形因子模型的一种高阶泛化。
所以第3阶张量R上任意位置(i,j,c)所对应的评分计算如下：
在这里插入图片描述