Product1M 深度理解 PPT

系列论文研读目录



在这里插入图片描述
模态内检索:是指在同一模态(例如,图像、文本或音频)中进行的检索任务。它通常涉及在同一类型的数据中查找相关项。比如下面图像只能查询图像,文本只能查询文本,视频只能查询视频
跨模态检索:是指在不同模态之间进行的检索任务,即使用一种模态的数据来检索另一种模态的数据。图像可以查找相关的文本的结果,文本可以查找相关的检索的结果,和视频的结果。
然而,这两种检索的方法通常受到单一模态输入的影响,这使得它们难以应用于许多现实世界的场景,其中查询和目标中都存在多模态信息。比如假设你在一个在线购物平台上搜索一款运动鞋。
上传了一张运动鞋的图片,并附上文本描述:“我想要一双红色的运动鞋。”这两种模态作为查询的根据
而目标(Targets)是数据库中有多款运动鞋的记录,每款记录包含:图像:每双鞋的图片。还有文本描述:关于每双鞋的详细描述,例如“红色运动鞋,适合跑步,轻便舒适”。

在这里插入图片描述
WSOD:弱监督目标检测:是一种目标检测方法,它利用有限的标注信息来训练模型。与传统的目标检测方法需要大量的精确标注(如边界框)不同,WSOD通常只依赖于弱标注,例如图像级标签或少量的边界框。。
WSOD通常依赖于预定义类的固定大小的集合,并且不容易适用于我们提出的任务,比如WSOD依赖于预定义的类标签,这意味着模型只能识别这些特定的类别。当商品种类不断变化或新增时,模型需要重新训练以适应新的类标签,这在实际应用中效率低下且成本高昂。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值