《DATE: Domain Adaptive Product Seeker for E-commerce》中文校对版

系列论文研读目录



摘要

 产品检索(PR)和产品定位(PG),旨在分别根据文本查询寻找图像和对象级的产品,为了更好的购物体验近年来引起了极大的兴趣。由于相关数据集的缺乏,我们从淘宝商城和Live两个领域收集了两个大规模的基准数据集,分别包含约474 k和101 k的图像-查询对用于PR,并为PG手动标注每个图像中的对象边界框。由于标注框昂贵且耗时,我们尝试将知识从标注的领域转移到PG的未标注领域,以实现无监督的领域自适应(PG-DA)。提出了一个领域自适应产品搜索框架,将PR和PG看作不同层次的产品搜索问题,以辅助产品的查询。具体而言,我们首先为每一个模态设计一个语义聚合的特征提取器,以获得集中和全面的特征,为后续的高效检索和细粒度的接地任务。然后,我们提出了两个合作的搜索者,同时搜索PR和PG的产品定位的图像。此外,我们设计了一个域对齐PG-DA,以减轻单峰边缘和多模态的条件分布之间的源域和目标域的移动,并设计了一个伪框生成器,以动态地选择可靠的实例,并生成边界框进一步的知识转移。大量的实验表明,我们的数据在完全监督的PR,PG和无监督的PG-DA中取得了令人满意的性能。我们的脱敏数据集将在这里公开https://github.com/Taobao-live/Product-Seeking

1.引言

 如今,随着电子商务和直播的快速发展,消费者可以在电子商城或各种直播平台上享受购物。虽然可以在屏幕上展示和购买各种产品的事实给我们带来了方便,但我们沉浸在这个繁杂的产品世界中。因此,针对产品(PR)的跨模态检索[1,3,15,21,41,43,55],旨在基于文本查询寻找对应的图像,对于提升整体产品搜索引擎和提升消费者的购物体验具有重要意义。
 此外,如果对象级产品可以根据查询定位在目标产品图像或直播间图像上,这将有助于消费者关注所需的产品,也有利于下游的视觉到视觉检索。我们将这个有趣的任务命名为产品定位(PG),就像视觉定位一样[29,36,40,45,56]。通常,PR和PG被看作是两个独立的任务,但我们考虑挖掘PR和PG的共性,并将它们分别视为图像级和对象级的产品搜索。同时设计了一个统一的架构来同时解决PR和PG,这比单独的方法更节省时间和内存。
在这里插入图片描述

图1.从淘宝商城和Live收集的两个数据集上的产品检索(PR)和接地(PG)问题的图示。(1)给定一个文本查询(即产品的中文标题或描述),PR是从图库中查找对应的图像级产品,而PG是从图像中查找对象级产品。(2)进一步研究了PG-DA算法,该算法在多模态领域间隙的影响下,将知识从标注的源领域转移到未标注的目标领域,从而实现无监督的PG.

 为了研究具有实际应用价值的PR和PG,我们收集了淘宝商城和淘宝直播两个大规模的Product Seeking基准数据集TMPS和TLPS,分别包含约47.4万个图像-标题对和10.1万个框架-描述对,并对图像中对象级产品的位置进行了人工标注。针对标注产品边界框耗时且代价高昂的问题,探讨如何将标注领域的知识转移到未标注领域,实现领域自适应环境下的无监督PG(PG-DA)。因此,我们提出了Domain Adaptive Product Seeker(DATE,领域自适应产品搜索器),以解决具有挑战性的PR,PG和PG-DA问题的以下方面。
 首先,由于商场和现场场景的复杂性,图像和查询的区分表示是准确定位对象的先决条件。考虑到传统的CNN难以实现长距离关系推理和全面理解,我们利用并改进了Swin-TF [37]来提取分层和全面的特征。由于大规模图像搜索对PR的要求很高,因此确保搜索推理的成本很低至关重要。因此,我们将[REP]令牌注入SwinTF以吸收加权的全局语义,并将它们压缩到单个向量中,该向量将具有区分性和集中性,以便进行高效的图像查找。我们执行相同的语义聚合技术的查询特征提取。
 其次,PR和PG都需要具有宏观图像搜索和微观细粒度目标搜索的能力。因此,我们提出了两种协作搜索器,其中图像搜索器计算PR的视觉和文本集中特征之间的余弦相似度,和目标搜索器基于交叉-模态交互Transformer通过对PG的综合特征直接预测产品的坐标,验证了这种方法的合理性合作策略。
 第三,由于图1所示的两个数据集之间的域间隙,直接将模型应用于目标域测试将导致PG-DA的性能严重退化。据我们所知,这是第一个在域适应设置中考虑无监督视觉基础的工作,大多数单模态DA [8,34,38]和多模态DA [5,7]方法不直接适用于我们复杂的目标搜索。为此,设计了一种基于最大平均离散度的领域对齐器,通过最小化源领域和目标领域之间的单峰边缘分布和多峰条件分布差异来对齐领域,并设计了一个动态的伪包围盒生成器来选择目标领域中的相似实例,生成可靠的知识传递框。
 综上所述,本文的主要贡献如下:(1) 我们收集并人工标注了PR和PG两个大规模的基准数据集,具有很大的实际应用价值。(2) 我们提出了一个统一的框架,语义聚合的特征提取器和合作的搜索者,同时解决全监督PR和PG。(3) 我们探索了领域自适应设置中的无监督PG,并设计了多模态领域对齐器和动态框生成器来传递知识。(4) 我们进行了大量的实验,结果表明,我们的方法在全监督PR,PG和无监督PG-DA中取得了令人满意的性能。

2.相关工作

2.1.视觉检索

 给定一个文本查询,视觉检索(VR)[1,3,21,41,43,55]的目的是在库中找到相应的图像/视频。基于公共潜在空间的方法[1,55]已经证明了它们的有效性,该方法首先提取视觉和文本特征并将其映射到公共潜在空间中以直接测量视觉语言相似性。典型地,[16]应用CNN和RNN分别对图像和句子进行编码,并基于排名损失学习图像-标题匹配。[55]提出了一种语义图,以生成多层次的视觉嵌入和聚合结果的层次结构的整体跨模态相似性。最近,Transformer [46]在自然语言处理[12,20],计算机视觉[4,13,25,26,28]和多模态区域[23,24,27,33,48,50-52]方面表现出比以前的架构更好的性能,特别是对于全局信息理解。毫不奇怪,人们越来越多地将这些强大的模型重新用于VR [1,17,31,57]。他们使用Transformer学习联合多模态表示,并对详细的跨模态关系建模,取得了令人满意的性能。

2.2.视觉定位

 视觉定位(VG)[29,36,40,45]的研究范式与视觉检索(VR)类似,都是根据文本查询在视觉信号中寻找最佳匹配部分。与VR相比,对图像的细粒度内部关系进行建模对于VG来说更有意义。在早期的工作中,两阶段方法[6,22,53]被广泛使用,首先生成候选对象建议,然后利用语言描述来选择最相关的对象,通过利用现成的检测器或建议生成器来确保召回。然而,计算密集型的建议生成是耗时的,并且也限制了这些方法的性能,一阶段方法[32,49]集中于直接定位所引用的对象。具体来说,[49]将语言特征融合到视觉特征映射中,并以滑动窗口的方式直接预测边界框。最近,[10]将VG重新表述为坐标回归问题,并应用Transformer来解决它。
 通常将VR和VG视为两个独立的问题。本文挖掘了这两个问题的共性,设计了一个基于协同搜索的统一架构,有效地解决虚拟现实和虚拟样机问题。

2.3.无监督域自适应

 无监督领域自适应(UDA)的目标是将知识从标注的源领域转移到未标注的目标领域,其难点在于如何克服领域间隙的影响。在单模态任务应用中,已经探索了几种UDA技术,包括对准跨域特征分布[18,34]、应用对抗学习策略[2,38]或重构方法[8]以获得域不变特征。并且[9]使用最优传输来估计两个分布之间的差异,并利用来自源域的标签。与上述工作不同,我们的任务本质上是跨模态的,由于不同模态之间的异质性差距,这更具挑战性。在多模态领域,很少有研究工作考虑到UDA,[5]研究了面向视觉问答的跨数据集自适应,[7]研究了基于伪标记算法的视频文本检索。据我们所知,这是第一次在领域适应设置中考虑无监督视觉定位的工作。
在这里插入图片描述

图3.多模态域校准器。

3.提出Date

3.1.问题公式化

 本文研究了全监督的PR和PG,以及无监督的PG-DA在域自适应环境中的应用(设置)。接下来,我们将对它们进行阐述。
PR和PG。我们收集一个完全注释的数据集 { V , Q , O } \{V,Q,O\} { VQO},给定查询集 Q Q Q中的文本查询 Q i Q_i Qi,PR和PG旨在从整个图像库 V V V中寻找图像级产品 V Q i V_{Q_i} VQi,并从匹配的图像 V Q i V_{Q_i} VQi中寻找对象级产品 O Q i O_{Q_i} OQi O O O是边界框注释。
PG-DA. 我们可以访问完全注释的源域 S = { V S , Q S , O S } S =\{ V^S,Q^S,O^S\} S={ VSQSOS},以及没有框注释 O T O^T OT的未注释的目标域 T = { V T , Q T } \mathcal{T}=\left\{V^{T},Q^{T}\right\} T={ VT,QT}。PG-DA的目标是将知识从 S S S转移到 T \mathcal{T} T,并在 T \mathcal{T} T上寻求对象级产品。
在这里插入图片描述

图2.DATE概述。(a)是特征提取器,应用语义聚合transformers来获得图像和查询特征。(b)为合作的搜索者,通过计算相似度为PR寻找图像,通过预测坐标以寻找PG的对象。©包括用于最小化源域和目标域之间的分布发散的域对齐器和用于选择可靠实例并生成用于PG-DA中的知识转移的边界框的伪框生成器。

3.2.语义聚合特征提取器

 如图2(a)所示,对于这两种设置,我们共享特征提取器,该特征提取器可以聚合用于图像搜索的每个模态的全局语义,以及捕获用于对象搜索的全面和上下文感知的特征。
图像流。给定RGB图像 v v v,我们首先将其分割成不重叠的块,然后我们参考Swin-TF [37]进行分层特征提取。Swin主要通过面片合并模块和Swin Transformer模块的堆栈实现4级编码,每级分辨率减半,获得层次化特征。原始Swin-TF算法利用平均池来获取图像表示向量,忽略了每个特征点在语义提取中重要性的差异。为了提高算法的性能,在第四阶段,在视觉标记序列的前面添加一个可学习的[REP]标记,它参与了自注意的计算,并吸收了加权后的全局图像特征。在第四阶段之后,我们得到了语义聚合的视觉特征,并将这种视觉编码器命名为SA-Swin。然后应用线性层将它们投影到d维得到 V S A = [ V r e p , V ] ∈ R d × ( 1 + N v ) \bm{V}_{SA} = [V_{rep},\bm{V}] ∈ R^{d×(1+N_v)} VSA=[VrepV]Rd×(1+Nv),其中 N v N_v Nv是视觉标记的数目, V r e p V_{rep} Vrep V \bm{V} V分别是集中和综合的特征。
查询数据流。给定一个文本查询 q q q,我们首先将其拆分为字符级序列,并将每个字符转换

在长视频-语言理解(video-language understanding)模型中,时空自适应压缩技术(spatiotemporal adaptive compression technique)是一种用于优化模型处理长视频时的计算和内存效率的方法。这种技术的核心思想是通过动态调整视频帧和空间区域的采样密度,以减少冗余信息的处理,同时保留关键语义内容[^1]。 ### 原理与实现方式 1. **时间维度压缩(Temporal Compression)** 视频通常由大量连续帧组成,但并非所有帧都对最终的任务(如视频问答、动作识别)有同等重要的贡献。时间维度压缩的目标是识别并保留关键帧,同时跳过或合并冗余帧。例如,如果视频中某个时间段内的内容变化较小(如静态场景或缓慢移动的物体),可以减少对该时间段的采样频率。这种动态调整帧采样率的方法可以显著减少计算量[^1]。 2. **空间维度压缩(Spatial Compression)** 在单帧内部,视频的不同区域可能具有不同的信息重要性。例如,在一个描述“人在跑步”的视频帧中,人物所在的区域可能比背景区域更为重要。空间维度压缩技术通过识别这些关键区域,并对这些区域进行高分辨率处理,而对其他区域进行低分辨率处理或忽略。这种策略不仅减少了计算资源的消耗,还能提升模型对关键信息的关注度[^1]。 3. **自适应机制(Adaptive Mechanism)** 自适应机制是该技术的核心部分,它允许模型根据输入视频的时空特征动态调整压缩策略。具体来说,模型会根据当前帧的内容(如运动强度、物体分布等)决定下一组需要处理的帧以及每个帧中需要关注的空间区域。这种机制通常通过一个可学习的模块实现,例如基于注意力机制(attention-based module)或强化学习(reinforcement learning)[^1]。 ### LongVU 模型中的应用 LongVU 是一种专为长视频-语言理解任务设计的模型,它结合了时空自适应压缩技术来处理长时间跨度的视频数据。LongVU 的主要特点包括: - **层次化压缩策略**:LongVU 在不同层次上应用时空压缩。例如,在粗粒度层面上,模型可能会跳过大量冗余帧;而在细粒度层面上,模型会聚焦于特定帧中的关键区域。 - **跨模态交互优化**:由于视频-语言理解任务涉及视频内容与文本描述的交互,LongVU 在压缩过程中考虑了语言模态的信息。例如,模型可能会根据输入的文本问题动态调整视频帧的采样策略,以确保与问题相关的视觉内容被保留[^1]。 - **端到端训练**:LongVU 的压缩模块与主任务模块(如分类或生成模块)一起进行端到端训练,确保压缩策略能够适应具体的任务需求。 ### 示例代码 以下是一个简化的时空自适应压缩模块的伪代码,展示了如何根据帧的内容动态调整采样策略: ```python def adaptive_temporal_sampling(frames, motion_threshold): key_frames = [] for i in range(len(frames)): if i == 0 or calculate_motion(frames[i-1], frames[i]) > motion_threshold: key_frames.append(frames[i]) return key_frames def calculate_motion(frame_prev, frame_curr): # 简单的帧间差异计算,用于衡量运动强度 return np.mean(np.abs(frame_prev - frame_curr)) ``` 在这个示例中,`adaptive_temporal_sampling` 函数根据帧间运动强度决定哪些帧是关键帧。如果帧间的运动强度大于设定的阈值,则保留该帧作为关键帧;否则,跳过该帧。 ### 应用场景 时空自适应压缩技术在多种视频-语言理解任务中具有广泛应用,包括: - **视频问答(Video Question Answering)**:在处理长视频时,模型可以动态调整帧采样策略,以聚焦于与问题相关的视频片段。 - **视频摘要(Video Summarization)**:通过识别关键帧和关键区域,模型可以生成简洁的视频摘要,减少冗余信息。 - **动作识别(Action Recognition)**:对于长时间跨度的视频,模型可以专注于包含动作的帧,而忽略无关帧。 ### 总结 时空自适应压缩技术通过动态调整视频帧和空间区域的采样密度,显著提高了长视频-语言理解模型的效率。LongVU 作为这一技术的典型应用,能够在保持任务性能的同时,大幅降低计算和内存开销。未来,这种技术有望在更多涉及长视频处理的任务中发挥作用。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值