EI-CLIP 深度理解 PPT

最新推荐文章于 2025-12-02 15:55:42 发布

原创

最新推荐文章于 2025-12-02 15:55:42 发布 · 998 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #深度学习 #论文笔记 #transformer

系列文章目录

文章目录

在这里插入图片描述
在电子商务产品的跨模态检索中，电子商务图像和电子商务语言都有许多独特的特点。如图所示，一个电子商务产品图片通常只包含一个简单的场景，有一个或两个前景物体和一个普通的背景。同时，电子商务语言通常由一组元数据（标签实体)组成，包括产品名称/描述、品牌、类别、成分等。之前的工作,如FashionBERT 表明，时尚领域的跨模态检索需要更细粒度的特征,比如如短袖和圆领。
在这里插入图片描述
在电子商务中，单词标记经常会产生特殊的含义，而[10，38，72]中的预训练语言模型部分尽管有大规模的预训练语料库，但仍有偏见。例如，在预训练的CLIP模型中，实体“diesel”与概念“fuel”紧密相关，而在电子商务时尚领域中，“diesel”被标记为品牌实体。其他例子包括“canada goose（品牌）“、“golden goose（品牌）”、“top（类别）"等
在这里插入图片描述
介绍一下因果学习，和分布外的问题，根据应用场景的不同Causal learning 的最终目的是不同的，其中一个比较重要的目的就是想解决Machine learning的Out-of-Distribution Generalization（OODG）的问题。假设我们想分类骆驼和奶牛的图片, ，我们获得的图片中大概率是下图的情形。
。比如我们的训练数据中，骆驼大多数出现在沙化的土地（背景偏黄），奶牛大多数出现在长有植被的土地（背景偏绿）。这样一来，由于背景往往占据图片的主要内容，我们的模型学到的很可能是背景相关的特征，比如背景颜色，然后使用背景颜色对图片进行分类。即使我们在训练