Product1M 深度理解 PPT

原创

已于 2024-10-14 20:47:29 修改 · 1.4k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #transformer #论文笔记 #bert

于 2024-10-14 20:47:15 首次发布

系列论文研读目录

文章目录

在这里插入图片描述
模态内检索：是指在同一模态（例如，图像、文本或音频）中进行的检索任务。它通常涉及在同一类型的数据中查找相关项。比如下面图像只能查询图像，文本只能查询文本，视频只能查询视频
跨模态检索：是指在不同模态之间进行的检索任务，即使用一种模态的数据来检索另一种模态的数据。图像可以查找相关的文本的结果，文本可以查找相关的检索的结果，和视频的结果。
然而，这两种检索的方法通常受到单一模态输入的影响，这使得它们难以应用于许多现实世界的场景，其中查询和目标中都存在多模态信息。比如假设你在一个在线购物平台上搜索一款运动鞋。
上传了一张运动鞋的图片，并附上文本描述：“我想要一双红色的运动鞋。”这两种模态作为查询的根据
而目标（Targets）是数据库中有多款运动鞋的记录，每款记录包含：图像：每双鞋的图片。还有文本描述：关于每双鞋的详细描述，例如“红色运动鞋，适合跑步，轻便舒适”。

在这里插入图片描述
WSOD：弱监督目标检测：是一种目标检测方法，它利用有限的标注信息来训练模型。与传统的目标检测方法需要大量的精确标注（如边界框）不同，WSOD通常只依赖于弱标注，例如图像级标签或少量的边界框。。
WSOD通常依赖于预定义类的固定大小的集合，并且不容易适用于我们提出的任务，比如WSOD依赖于预定义的类标签，这意味着模型只能识别这些特定的类别。当商品种类不断变化或新增时，模型需要重新训练以适应新的类标签，这在实际应用中效率低下且成本高昂。
在这里插入图片描述
跨模态的自我监督学习，之前的自我监督学习有单流双流，两种，下面左边是单流的