系列论文研读目录
文章目录
模态内检索:是指在同一模态(例如,图像、文本或音频)中进行的检索任务。它通常涉及在同一类型的数据中查找相关项。比如下面图像只能查询图像,文本只能查询文本,视频只能查询视频
跨模态检索:是指在不同模态之间进行的检索任务,即使用一种模态的数据来检索另一种模态的数据。图像可以查找相关的文本的结果,文本可以查找相关的检索的结果,和视频的结果。
然而,这两种检索的方法通常受到单一模态输入的影响,这使得它们难以应用于许多现实世界的场景,其中查询和目标中都存在多模态信息。比如假设你在一个在线购物平台上搜索一款运动鞋。
上传了一张运动鞋的图片,并附上文本描述:“我想要一双红色的运动鞋。”这两种模态作为查询的根据
而目标(Targets)是数据库中有多款运动鞋的记录,每款记录包含:图像:每双鞋的图片。还有文本描述:关于每双鞋的详细描述,例如“红色运动鞋,适合跑步,轻便舒适”。
WSOD:弱监督目标检测:是一种目标检测方法,它利用有限的标注信息来训练模型。与传统的目标检测方法需要大量的精确标注(如边界框)不同,WSOD通常只依赖于弱标注,例如图像级标签或少量的边界框。。
WSOD通常依赖于预定义类的固定大小的集合,并且不容易适用于我们提出的任务,比如WSOD依赖于预定义的类标签,这意味着模型只能识别这些特定的类别。当商品种类不断变化或新增时,模型需要重新训练以适应新的类标签,这在实际应用中效率低下且成本高昂。