Referring Image Segmentation Using Text Supervision(论文笔记)

弱监督下基于双边提示的RIS模型:伪标签生成与定位校正,

解决的问题:

几乎所有现有的RIS方法都依赖于全监督学习方案来产生准确的结果,这需要耗时和劳动密集型的像素级注释.要设计具有更便宜的监督信号的RIS模型。

我的理解是,前半张图表示的内容是利用弱监督模型生成像素级伪标签,后半张图表述用以伪标签训练一个RIS模型。

解决方法:

(1)该框架只通过现有的参考文本监督,不需要额外的annotation信息
(2)我们提出了一种协调视觉和语言模态差异的双边提示方法。
(3)我们提出了一种校正方法来提高响应图定位的正确性。
(4)我们提出了一种响应图选择策略来生成高质量的伪标签,用于目标对象的分割。
(5)提出了一种新的定位精度评价指标。


网络结构:

(1)Text-to-Image Response Modeling :

编码器编码图片和参考文本,再映射到相同的通道上,根据Bilateral Prompt方法得到的提示特征分别与图片和文本特征残差连接,再将两种特征举矩阵相乘得到响应图。响应图中的像素反应当前像素与整个查询语句的响应值。


(2)Bilateral Prompt:

输入的图像和文本特征各自与可学习权重相乘得到Q,K,V 两边的Q,K相乘除以根号下通道数得到各自的注意力矩阵,再与对方的Value相乘得到双边提示特征。


(3)Localization via Text-to-Image Optimization:

首先做一个分类,让模型从一组积极和消

### 关于PPT中引用图像分割的技术 在处理PPT或PowerPoint中的图像分割任务时,可以借鉴参考图像分割(Referring Image Segmentation, RIS)和开放词汇语义分割(Open Vocabulary Semantic Segmentation)的相关技术。这些技术通常结合自然语言处理(NLP)和计算机视觉(CV),以实现对特定图像区域的精确定位和分割。 #### 1. 基于文本描述的图像分割 参考图像分割的核心是通过自然语言描述定位图像中的目标区域。例如,在PPT中,用户可能希望通过一段文字描述来选择某个图表或图像的一部分。为此,研究者提出了一种微调CLIP模型的方法[^1],该方法通过在掩膜图像区域和对应的文本描述上进行训练,能够更好地保留CLIP的泛化能力。这种方法可以从现有的图像-标题数据集中挖掘训练数据,并利用CLIP将掩码图像区域与图像标题中的名词进行匹配。 #### 2. 多边形生成方法 PolyFormer是一种创新的参考图像分割方法[^2],它将图像分割视为一个多边形序列生成任务。这种方法直接预测几何位置坐标,而无需将坐标量化到固定格子上。PolyFormer不仅在常规数据集上表现出色,还能够很好地泛化到参考视频图像分割任务中。对于PPT中的图像处理,这种技术可以用来精确地分割用户感兴趣的图像区域,并支持动态调整和交互式操作。 #### 3. 技术实现示例 以下是一个简单的代码示例,展示如何使用预训练的CLIP模型和掩膜技术进行图像分割: ```python import torch from transformers import CLIPProcessor, CLIPModel # 加载预训练的CLIP模型 model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32") processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32") # 输入图像和文本描述 image = "path_to_ppt_image.png" text = "a graph showing sales data" # 处理输入 inputs = processor(text=text, images=image, return_tensors="pt", padding=True) # 获取模型输出 outputs = model(**inputs) logits_per_image = outputs.logits_per_image # 图像-文本匹配分数 # 根据分数选择最匹配的区域 mask = logits_per_image.argmax(dim=1) ``` #### 4. 应用场景 在PPT中,引用图像分割技术可以用于以下场景: - **自动标注**:根据用户的文本描述,自动生成图像的标注框。 - **交互式编辑**:允许用户通过自然语言描述选择和编辑特定的图像区域。 - **内容提取**:从复杂的图表或图像中提取关键信息,用于数据分析或报告生成。 --- ###
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值