[论文笔记]Learning Compositional Representations for Few-Shot Recognition

本文提出一种新的正则化方法,通过将深层表示分解为基于类级别属性的子空间,以提高模型在小样本情况下的泛化能力。这种方法不仅首次实现了深层组件表示的学习,还简化了在ImageNet数据集上收集属性注释的过程。

Learning Compositional Representations for Few-Shot Recognition

论文地址

开源模型

一,概述

​ 受到人类存储知识方法(组成结构)的启发,作者提出了一种简单的正则化方法,允许将学习到的表示分解为多个部分,即借用类级别的属性注释将网络的特征空间分解为与属性对应的子空间,从而更好地泛化模型提取出的知识来达到更好的性能。

​ 主要贡献:

  1. 提出了第一种学习深层成分表示的方法。
  2. 说明了在ImageNet数据集上收集属性注释的简单性。
  3. 性能的提升。

二,方法阐述

2.1 问题定义

在这里插入图片描述

在这里插入图片描述

​ 首先,在Sbase上学习了一个参数为 θ ​ \theta​ θ的表示模型,该模型用于接下来的在Snovel上分类任务。

​ 为了更好地表明类标签yi ∈ \in Cbase的结构信息,作者引入了类层面的派生属性集D(xi)

### 论文评估方法总结 论文《Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation》提出了基于无训练主体增强注意力引导的方法来实现组合文本到图像生成的任务。以下是该文中涉及的主要评估方法: #### 1. 定量指标分析 为了衡量模型生成图像的质量以及其与输入文本的一致性,文章采用了多种定量评价标准,包括但不限于 Fréchet Inception Distance (FID)[^4] 和 Clip Score[^5]。这些指标能够有效反映生成图像的真实性和语义一致性。 - **Fréchet Inception Distance (FID)**: FID 值越低表示生成样本分布与真实数据分布之间的差异越小,从而表明更好的生成效果。 - **Clip Score**: 这一分数通过计算生成图片和对应描述之间相似度得分来进行评测,高分意味着更强的相关性。 #### 2. 主观视觉质量比较 除了上述客观数值外,研究者还进行了大规模的人类偏好测试实验,邀请参与者对比不同算法产生的结果并选出更优选项。这种方法可以弥补单纯依赖自动化测量可能存在的局限性,提供更加直观可靠的反馈信息[^6]。 #### 3. 对抗攻击鲁棒性的考察 考虑到实际应用场景中的复杂情况,本文特别设计了一些针对潜在干扰因素(如噪声注入)下的性能检验环节。具体而言,在保持其他条件不变的前提下向输入端引入不同程度随机扰动后再观察最终输出变化趋势如何受到影响[^7]。 ```python def calculate_fid(real_images, generated_images): """ Calculate the Frechet Inception Distance between real and generated images. Parameters: real_images (list): List of numpy arrays representing real image data points. generated_images (list): List of numpy arrays representing synthetic counterparts. Returns: float: The computed FID value indicating similarity level among two sets. """ pass def compute_clip_score(image_tensor, text_description): """ Compute CLIP score which reflects alignment degree between an individual piece of visual content alongside its associated linguistic annotation. Args: image_tensor (torch.Tensor): Tensor representation formating single frame instance. text_description (str): Natural language phrase describing target scene contextually. Return: double: Numerical assessment reflecting congruence status quantitatively. """ pass ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值