非对称模态检索：京东 SMAR 在电商搜索中的创新实践_semantic-enhanced modality-asymmetric retrieval fo-优快云博客

“Semantic-enhanced Modality-asymmetric Retrieval for Online E-commerce Search.” Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023.

在电商平台，用户通常通过文本搜索框输入查询，但商品端往往是图文结合的多模态信息（如商品标题、图片等）。如何在这种模态非对称的场景下，高效地匹配用户需求和商品，是推荐系统的重要挑战。

京东在 SIGIR 2023 上提出的 Semantic-enhanced Modality-asymmetric Retrieval (SMAR)，专注于解决电商搜索中文本查询与商品图文匹配的问题。相比于百度、快手和 Meta 在推荐领域的其他工作，SMAR的创新点在于其特定场景优化、动态模态门控机制以及面向工业实用性的设计。论文链接

以下从背景、创新技术、实验结果和与其他工作的对比角度，简要解析 SMAR 的核心思路和实际价值。

1. 背景与任务

关注任务：

在电商场景下，当用户输入纯文本 Query（如“蓝色连衣裙”），系统需从海量商品中快速召回与之匹配的候选商品。
然而，商品信息通常包含文本描述（如标题）和图片。
因此，会出现模态非对称的场景：用户只有文本，而商品有图文。

研究问题：

图文对齐困难： 商品图片和文本信息可能存在冗余或冲突（如图片显示蓝色裙子，但标题包含“黄色”关键词）。
模态重要性不同： 图片对时尚类商品至关重要，但对书籍、药品等类目可能不必要。
现有方法不足： 一般做法要么只用文本匹配（丢失图片信息），要么直接拼接图文特征（引入噪声）。

SMAR 提出了一种两阶段训练 pipeline，通过多任务预训练解决图文融合和对齐问题，再通过动态模态门控实现按需使用图片信息，最终显著提升搜索效果。

2. 方法：两阶段训练与动态门控

SMAR 的核心方法分为两个阶段：多任务预训练和自适应门控微调。

(1) 多任务预训练 (Multi-task Pre-training)

通过三个任务同时学习，让模型掌握图文融合和对齐能力：

文本匹配： 学习用户 Query 和商品文本之间的语义投影。
模态对齐： 学习用户 Query 与商品图片的对齐关系。
非对称融合： 学习用户 Query 与融合后的商品图文表征的匹配关系。

目的： 在大规模训练数据上，打好图文融合和模态对齐的基础。

(2) 自适应门控微调 (Adaptive Fine-tuning with Modality Gate)

在微调阶段，加入一个轻量级的预测门控模块，根据用户 Query 动态决定是否使用商品图片信息：

如果图片对当前 Query 很重要（如“蓝色裙子”），则使用图文融合表征。
如果图片无关紧要（如“高等数学”），则只使用商品文本表征。

核心优势：

动态按需使用图片，避免引入不必要的噪声。
提升了模型的灵活性和对不同商品类目的适应性。

3. 实验结果

(1) 离线实验：

在京东工业数据集上，显著超越基线模型（包括纯文本匹配和简单图文拼接）。
消融实验表明：多任务预训练和动态门控模块都对性能提升有关键作用。

(2) 在线A/B测试：

在京东平台主流量上线，面对超 2 亿用户，取得了令人信服的效果：
- **GMV（成交额）**提升 0.285%。
- **UCVR（用户转化率）**提升 0.174%。
- 时尚类目效果更显著： GMV提升 1.112%，UCVR 提升 0.437%。

总结： 对于京东这种级别的电商平台，即使小幅度提升也能带来巨大的业务价值。

4. 与其他工作的对比

相比于百度的 COBRA、快手的 M3CSR 和 Meta 的 Unified Semantic ID Representation，SMAR 的独特性和创新主要体现在以下三个方面：

(1) 场景特化：非对称模态检索

SMAR专注于用户文本 Query 与商品图文信息匹配的非对称模态场景。
区别：
- COBRA 专注于生成式对称表征（用户与商品模态一致）。
- M3CSR 面向短视频推荐，用户行为和商品信息都包含多模态，且主要解决冷启动问题。
- Meta Unified 是通用推荐表征学习，未显式处理模态差异。

(2) 创新技术：动态模态门控

SMAR 在微调阶段引入预测门控模块，根据用户 Query 动态决定是否使用商品图片信息。
区别：
- COBRA 的生成式方法是全模态生成，不具备动态调整能力。
- M3CSR 通过模态强度权重调整模态重要性，但非动态预测。
- Meta 的 Unified Semantic ID Representation 静态融合 ID 和语义 token，无法灵活调整模态使用。