文献分享: Muvera多向量到单向量的转化方法(Part1.导论/原理/实验)-优快云博客

$\textbf{1. }$ 导论与背景

$\textbf{1.1. }$ 研究背景

1️⃣两种文本相似性检索模型

类型嵌入方式相似度计算

单向量 $(SV)\text{(SV)}$ 对整个句子生成唯一的嵌入 $MIPS\text{MIPS}$ 算法，从一堆向量找出与 $q$ 有最大内积的

多向量 $(MV)\text{(MV)}$ 对每个 $Token\text{Token}$ 都生成一个嵌入 $Chamfer\text{Chamfer}$ 相似度，也就是所谓的 $MaxSim\text{MaxSim}$ 之和

2️⃣多向量模型的问题：检索成本还是高过单向量

空间占用上： $Token\text{Token}$ 数量过多，需要大量的存储

计算成本上：缺乏对于 $Chamfer\text{Chamfer}$ 的优化，大多的优化只针对于 $MIPS\text{MIPS}$ 而无法用在 $Chamfer\text{Chamfer}$ 上

3️⃣改进的尝试：将 $MV\text{MV}$ 改为基于 $SV\text{SV}$ 的 $MIPS\text{MIPS}$ 流水(单向量启发式方法)

$SV\text{SV}$ 阶段：每个查询 $Token→MIPS\text{Token}\xrightarrow{\text{MIPS}}$ 最相似的文档 $Token\text{Token}$

$MV\text{MV}$ 阶段：收集所有的最相似文档 $Token\text{Token}$ ，再用原始 $Chamfer\text{Chamfer}$ 相似度得到最终评分

$\textbf{1.2. }$ 本文工作 $Muvera\textbf{: Muvera}$ 概述

1️⃣ $Chamfer\text{Chamfer}$ 相似度

相似度的定义：对查询 $Q /$ 段落 $P$ 的每个 $Token(q/p)\text{Token}(q/p)$ ，相似度为 $Chamfer(Q,P)=∑q∈Qmax⁡p∈P⟨q,p⟩\displaystyle{}\text{Chamfer}(Q,P)\text{=}\sum_{q \text{∈} Q} \max _{p \text{∈} P}\langle q, p\rangle$

扩展到最邻近：在 $P(1),P(2),…,P(N)}\mathscr{P}\text{=}\left\{P^{(1)},P^{(2)},\ldots,P^{(N)}\right\}$ 中找到与 $Q$ 之间 $Chamfer\text{Chamfer}$ 相似度最高的文档 $P∗∈DP^{*} \text{∈} D$

2️⃣ $Muvera\text{Muvera}$ 概述

核心思想：将所向量压缩为单向量，原有的 $Chamfer\text{Chamfer}$ 搜索也变成 $MIPS\text{MIPS}$ 搜索

维度压缩：特殊的映射函数 $Fque:2Rd→RdFDEFdoc:2Rd→RdFDE→\begin{cases}\mathbf{F}_{\mathrm{que}}: 2^{\mathbb{R}^{d}} \rightarrow \mathbb{R}^{d_{\mathrm{FDE}}}\\\\\mathbf{F}_{\text{doc}}: 2^{\mathbb{R}^{d}} \rightarrow \mathbb{R}^{d_{\mathrm{FDE}}}\end{cases}\text{→}$ 将多向量压缩为固定 $dFDEd_{\text{FDE}}$ 维单向量编码

相似度计算：用内积 $⟨Fque(Q),Fdoc(P)⟩\left\langle\mathbf{F}_{\mathrm{que}}(Q), \mathbf{F}_{\text{doc}}(P)\right\rangle$ 作为原有 $Chamfer(Q,P)=∑q∈Qmax⁡p∈P⟨q,p⟩\displaystyle{}\text{Chamfer}(Q,P)\text{=}\sum_{q \text{∈} Q} \max _{p \text{∈} P}\langle q, p\rangle$ 的替代

工作流程：

预处理：对所有文档进行 $Fdoc\mathbf{F}_{\text{doc}}$ 映射得到 $Fdoc(Pi)\mathbf{F}_{\text{doc}}(P_i)$ 的固定维度编码( $FDEs\text{FDEs}$ )

查询初排：对查询 $Q$ 进行 $Fque\mathbf{F}_{\text{que}}$ 映射得到 $Fque(Q)\mathbf{F}_{\text{que}}(Q)$ ，计算 $⟨Fque(Q),Fdoc(Pi)⟩\left\langle\mathbf{F}_{\mathrm{que}}(Q), \mathbf{F}_{\text{doc}}(P_i)\right\rangle$ 得到 $Top-k\text{Top-}k$ 文档

查询重排：再用完整的 $∑q∈Qmax⁡p∈P⟨q,p⟩\displaystyle{}\sum_{q \in Q} \max _{p \in P}\langle q, p\rangle$ 相似度，对 $Top-k\text{Top-}k$ 个文档进行重排

备注的点：

$Fdoc/Fque\mathbf{F}_{\text{doc}}/\mathbf{F}_{\text{que}}$ 是与数据分布无关，由此对不同分布的处理都有鲁棒性

$⟨Fque(Q),Fdoc(Pi)⟩\left\langle\mathbf{F}_{\mathrm{que}}(Q), \mathbf{F}_{\text{doc}}(P_i)\right\rangle$ 求解过程在高度优化的 $MIPS\text{MIPS}$ 求解器中完成

类型	嵌入方式	相似度计算
单向量 $(SV)\text{(SV)}$	对整个句子生成唯一的嵌入	$MIPS\text{MIPS}$ 算法，从一堆向量找出与 $q$ 有最大内积的
多向量 $(MV)\text{(MV)}$	对每个 $Token\text{Token}$ 都生成一个嵌入	$Chamfer\text{Chamfer}$ 相似度，也就是所谓的 $MaxSim\text{MaxSim}$ 之和

$\textbf{2. }$ 固定维度嵌入( $FDEs\textbf{FDEs}$ )

$FDE\textbf{2.1. FDE}$ 的生成过程

1️⃣文本嵌入：对查询文本和段落文本分别应用嵌入器(如 $ColBERTv2\text{ColBERTv2}$ )，得到各自的多向量嵌入

查询嵌入 $Q$ ： ${q_1,q_2,...,q_m\}$ ，其中 $qi⊆Rdq_i\text{⊆}\mathbb{R}^{d}$ 即为固定 $d$ 维

段落嵌入 $P$ ： ${p_1,p_2,...,p_n\}$ ，其中 $pi⊆Rdp_i\text{⊆}\mathbb{R}^{d}$ 即为固定 $d$ 维

2️⃣向量分桶：用 $SimHash\text{SimHash}$ 将原有空间分为 $2ksim2^{k_{\text{sim}}}$ 个桶，每个桶用长为 $ksimk_{\text{sim}}$ 的定长二进制向量编码

法向抽取：从高斯分布中抽取 $ksim≥1k_{\text{sim}}\text{≥}1$ 个向量 $g1,…,gksim∈Rdg_{1},\ldots,g_{k_{\text{sim}}}\text{∈}\mathbb{R}^{d}$ ，作为 $ksimk_{\text{sim}}$ 个超平面的法向量

空间划分： $φ(x)=(1(⟨g1,x⟩>0),…,1(⟨gksim,x⟩>0))\varphi(x)\text{=}\left(\mathbf{1}\left(\left\langle{}g_{1},x\right\rangle{}\text{>}0\right),\ldots,\mathbf{1}\left(\left\langle{}g_{k_{\text{sim}}},x\right\rangle{}\text{>}0\right)\right)$

$1(⟨gi,x⟩>0)\mathbf{1}\left(\left\langle{}g_{i},x\right\rangle{}\text{>}0\right)$