“Semantic-enhanced Modality-asymmetric Retrieval for Online E-commerce Search.” Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023.
在电商平台,用户通常通过文本搜索框输入查询,但商品端往往是图文结合的多模态信息(如商品标题、图片等)。如何在这种模态非对称的场景下,高效地匹配用户需求和商品,是推荐系统的重要挑战。
京东在 SIGIR 2023 上提出的 Semantic-enhanced Modality-asymmetric Retrieval (SMAR),专注于解决电商搜索中文本查询与商品图文匹配的问题。相比于百度、快手和 Meta 在推荐领域的其他工作,SMAR的创新点在于其特定场景优化、动态模态门控机制以及面向工业实用性的设计。论文链接
以下从背景、创新技术、实验结果和与其他工作的对比角度,简要解析 SMAR 的核心思路和实际价值。
1. 背景与任务
关注任务:
在电商场景下,当用户输入纯文本 Query(如“蓝色连衣裙”),系统需从海量商品中快速召回与之匹配的候选商品。
然而,商品信息通常包含文本描述(如标题)和图片。
因此,会出现模态非对称的场景:用户只有文本,而商品有图文。
研究问题:
- 图文对齐困难: 商品图片和文本信息可能存在冗余或冲突(如图片显示蓝色裙子,但标题包含“黄色”关键词)。
- 模态重要性不同: 图片对时尚类商品至关重要,但对书籍、药品等类目可能不必要。
- 现有方法不足: 一般做法要么只用文本匹配(丢失图片信息),要么直接拼接图文特征(引入噪声)。
SMAR 提出了一种两阶段训练 pipeline,通过多任务预训练解决图文融合和对齐问题,再通过动态模态门控实现按需使用图片信息,最终显著提升搜索效果。
2. 方法:两阶段训练与动态门控
SMAR 的核心方法分为两个阶段:多任务预训练和自适应门控微调。
(1) 多任务预训练 (Multi-task Pre-training)
通过三个任务同时学习,让模型掌握图文融合和对齐能力:
- 文本匹配: 学习用户 Query 和商品文本之间的语义投影。
- 模态对齐: 学习用户 Query 与商品图片的对齐关系。
- 非对称融合: 学习用户 Query 与融合后的商品图文表征的匹配关系。
目的: 在大规模训练数据上,打好图文融合和模态对齐的基础。
(2) 自适应门控微调 (Adaptive Fine-tuning with Modality Gate)
在微调阶段,加入一个轻量级的预测门控模块,根据用户 Query 动态决定是否使用商品图片信息:
- 如果图片对当前 Query 很重要(如“蓝色裙子”),则使用图文融合表征。
- 如果图片无关紧要(如“高等数学”),则只使用商品文本表征。
核心优势:
- 动态按需使用图片,避免引入不必要的噪声。
- 提升了模型的灵活性和对不同商品类目的适应性。
3. 实验结果
(1) 离线实验:
- 在京东工业数据集上,显著超越基线模型(包括纯文本匹配和简单图文拼接)。
- 消融实验表明:多任务预训练和动态门控模块都对性能提升有关键作用。
(2) 在线A/B测试:
- 在京东平台主流量上线,面对超 2 亿用户,取得了令人信服的效果:
- **GMV(成交额)**提升 0.285%。
- **UCVR(用户转化率)**提升 0.174%。
- 时尚类目效果更显著: GMV提升 1.112%,UCVR 提升 0.437%。
总结: 对于京东这种级别的电商平台,即使小幅度提升也能带来巨大的业务价值。
4. 与其他工作的对比
相比于百度的 COBRA、快手的 M3CSR 和 Meta 的 Unified Semantic ID Representation,SMAR 的独特性和创新主要体现在以下三个方面:
(1) 场景特化:非对称模态检索
- SMAR专注于用户文本 Query 与商品图文信息匹配的非对称模态场景。
- 区别:
- COBRA 专注于生成式对称表征(用户与商品模态一致)。
- M3CSR 面向短视频推荐,用户行为和商品信息都包含多模态,且主要解决冷启动问题。
- Meta Unified 是通用推荐表征学习,未显式处理模态差异。
(2) 创新技术:动态模态门控
- SMAR 在微调阶段引入预测门控模块,根据用户 Query 动态决定是否使用商品图片信息。
- 区别:
- COBRA 的生成式方法是全模态生成,不具备动态调整能力。
- M3CSR 通过模态强度权重调整模态重要性,但非动态预测。
- Meta 的 Unified Semantic ID Representation 静态融合 ID 和语义 token,无法灵活调整模态使用。
(3) 强工业属性与验证
- SMAR 的工业化导向更强,包括开源工业级数据集和全面的在线 A/B 测试。
- 区别: 其他论文更多基于学术数据集和离线评估,缺乏实际工业场景的验证。
5. 总结
京东的 SMAR 工作在电商搜索领域,通过创新性的两阶段训练管道和动态模态门控机制,有效解决了文本 Query 与商品图文匹配的非对称模态检索问题。其主要亮点包括:
- 针对性强: 专注于非对称模态检索的特定场景。
- 方法创新: 两阶段训练 + 动态门控,让模型智能按需使用图片信息。
- 工业验证: 在京东平台大规模上线,取得显著业务效果。
与其他相关工作相比,SMAR的独特性体现在模态非对称问题的专注优化和动态门控机制的实际效果,为电商搜索中的多模态融合提供了新思路。

被折叠的 条评论
为什么被折叠?



