如何利用多模态大模型进行淘宝商品理解?

原创

于 2025-07-25 17:39:06 发布 · 1.3k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

本文探讨了如何利用多模态大模型提升淘宝家装商品的尺寸识别能力。在实际应用中，用户对家具商品的精准尺寸信息高度敏感，错误或模糊的尺寸数据不仅影响家装搭配的美观性与实用性，还可能导致商品与使用场景不匹配的问题。为此，文章介绍了通过Prompt工程、指令监督微调（SFT）和强化学习等方法优化多模态大模型的技术路径，旨在从SKU文本、SKU图片以及图文详情中高效提取准确的尺寸信息，并解决复杂情况下的尺寸推理难题。

前言

在淘宝的许多场景中，对商品数据进行精准的全面理解是非常需要的，特别是在我们家装行业的放我家类目中，用户对家具的精准尺寸信息是敏感的。不同尺寸的商品不仅影响了整体家装场景搭配的美观程度、使用效果，同时在许多场景下，由于对家具尺寸数据不敏感，可能会造成发现家具和实际使用场景并不适配的问题，在放我家的用户调研中，【精准尺寸】作为一个用户关心项被经常提到的。

我们希望能通过多模态大模型将这些知识提取出来，给业务带来价值增量。具体的，为了完成这项任务，我们尝试了几种方法，利用Prompt工程、指令监督微调（即SFT），强化学习等方式来提升多模态大模型的能力。

Prompt 工程

▐ 2.1尺寸图片筛选

淘宝中，可能出现尺寸信息的区域包括这几个，SKU文本、商品CPV信息、SKU图片、图文详情。

属性	例子	分析
商品CPV信息		结构化文本数据，但是由于实际调查下来发现 1.该数据商家填写非常不仔细，错误量很大， 2.基于商品粒度的，而不是SKU粒度，无法进行匹配 3.很多也是指明款式信息，而不是真正的精准尺寸。
SKU文本		文本数据，但是很多家装商品并不会在SKU文本中直接标明其精准尺寸，而是类似这样只是指明款式信息，真正的精准尺寸仍需从图片中获得。
SKU图片		与SKU绑定的图片，无需进行额外匹配，且如果其中标注了尺寸，一般就是精准的尺寸数据，但是并不是所有的SKU图中都标注了商品的尺寸数据。
图文详情		理论上图文详情中应该展示了该商品的包含了最多且最准确的信息。但是涉及到的图片数量很大，同时也是商品粒度的，不是SKU粒度的，需要额外匹配。同时从格式上来说信息都是以图片格式存储的，不是文字形式，不好结构化提取。</