【AI视野·今日CV 计算机视觉论文速览 第269期】Tue, 17 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 17 Oct 2023
Totally 158 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

HairCLIPv2: Unifying Hair Editing via Proxy Feature Blending
Authors Tianyi Wei, Dongdong Chen, Wenbo Zhou, Jing Liao, Weiming Zhang, Gang Hua, Nenghai Yu
近年来,头发编辑取得了巨大进步。早期的头发编辑方法使用精心绘制的草图或蒙版来指定编辑条件。尽管它们可以实现非常细粒度的本地控制,但这种交互模式对于可以通过语言描述或参考图像轻松指定的编辑条件来说效率很低。得益于最近跨模态模型(例如 CLIP)的突破,HairCLIP 是第一个能够基于文本描述或参考图像进行头发编辑的作品。然而,这种文本驱动和参考驱动的交互模式使得HairCLIP无法支持草图或蒙版指定的细粒度控制。在本文中,我们提出了 HairCLIPv2,旨在通过一个统一的框架支持所有上述交互。同时,它在 HairCLIP 的基础上进行了改进,具有更好的不相关属性,例如身份、背景保留和不可见的文本描述支持。关键思想是将所有头发编辑任务转换为头发转移任务,并将编辑条件相应地转换为不同的代理。通过混合发型或头发颜色特征空间内的相应代理特征,将编辑效果添加到输入图像上。除了前所未有的用户交互模式支持之外,定量和定性实验证明了HairCLIPv2在编辑效果、无关属性保留和视觉自然度方面的优越性。

TraM-NeRF: Tracing Mirror and Near-Perfect Specular Reflections through Neural Radiance Fields
Authors Leif Van Holland, Ruben Bliersbach, Jan U. M ller, Patrick Stotko, Reinhard Klein
像神经辐射场 NeRF 这样的隐式表示在具有精细细节的复杂场景的真实感渲染方面显示出令人印象深刻的结果。然而,在各种室内场景中经常遇到的理想或接近完美的镜面反射物体(例如镜子)会在重建场景的表示中造成模糊性和不一致,从而导致合成渲染中出现严重的伪影。在本文中,我们提出了一种针对 NeRF 中涉及的体积渲染量身定制的新颖反射跟踪方法,该方法考虑了这些类似镜子的对象,同时避免了通过标准路径跟踪进行直接但昂贵的扩展的成本。通过使用物理上合理的材料对反射行为进行显式建模,并在体积渲染公式中使用蒙特卡罗方法估计反射辐射率,我们得出了重要采样和沿光线的透射率计算的有效策略,仅来自少数样本。

A Survey on Video Diffusion Models
Authors Zhen Xing, Qijun Feng, Haoran Chen, Qi Dai, Han Hu, Hang Xu, Zuxuan Wu, Yu Gang Jiang
最近的人工智能生成内容浪潮 AIGC 在计算机视觉领域取得了巨大成功,其中扩散模型在这一成就中发挥了至关重要的作用。由于其令人印象深刻的生成能力,扩散模型正在逐渐取代基于 GAN 和自回归 Transformer 的方法,不仅在图像生成和编辑方面,而且在视频相关研究领域也展现出卓越的性能。然而,现有的调查主要集中在图像生成背景下的扩散模型,而对其在视频领域的应用的最新评论很少。为了解决这一差距,本文对 AIGC 时代的视频传播模型进行了全面回顾。具体来说,我们首先简要介绍扩散模型的基础知识和演变。随后,我们概述了视频领域扩散模型的研究,将工作分为三个关键领域:视频生成、视频编辑和其他视频理解任务。我们对这三个关键领域的文献进行了彻底的回顾,包括该领域的进一步分类和实际贡献。最后,我们讨论了该领域研究面临的挑战,并概述了未来潜在的发展趋势。

TOSS:High-quality Text-guided Novel View Synthesis from a Single Image
Authors Yukai Shi, Jianan Wang, He Cao, Boshi Tang, Xianbiao Qi, Tianyu Yang, Yukun Huang, Shilong Liu, Lei Zhang, Heung Yeung Shum
在本文中,我们提出了 TOSS,它将文本引入了仅从单个 RGB 图像中进行新颖视图合成 NVS 的任务。虽然 Zero 1 to 3 展示了令人印象深刻的零样本开放集 NVS 能力,但它将 NVS 视为纯粹的图像到图像转换问题。这种方法受到单视图 NVS 的约束性质的挑战,该过程缺乏明确的用户控制手段,并且经常导致令人难以置信的 NVS 生成。为了解决这个限制,TOSS 使用文本作为高级语义信息来约束 NVS 解决方案空间。 TOSS 对文本到图像稳定扩散进行了微调,在大规模文本图像对上进行了预训练,并引入了专门针对图像和相机姿势调节而定制的模块,以及针对姿势正确性和精细细节保存的专门训练。进行了全面的实验,结果表明我们提出的 TOSS 优于零 1 到 3,具有更合理、可控和多视图一致的 NVS 结果。

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting
Authors Zeyu Yang, Hongye Yang, Zijie Pan, Xiatian Zhu, Li Zhang
由于场景复杂性和时间动态性,从 2D 图像重建动态 3D 场景并随着时间的推移生成不同的视图具有挑战性。尽管神经隐式模型取得了进步,但仍然存在局限性。 场景结构不足 现有方法很难通过直接学习复杂的 6D 全光函数来揭示动态场景的空间和时间结构。 ii 缩放变形建模 对于复杂的动力学,显式地建模场景元素变形变得不切实际。为了解决这些问题,我们将时空视为一个整体,并建议通过使用显式几何和外观建模优化 4D 图元集合来近似动态场景的底层时空 4D 体积。学习优化 4D 图元使我们能够在任何需要的时间通过我们定制的渲染例程合成新颖的视图。我们的模型在概念上很简单,由可在空间和时间上任意旋转的各向异性椭圆参数化的 4D 高斯组成,以及由 4D 球谐函数系数表示的视图相关和时间演变的外观。这种方法为可变长度视频和端到端训练提供了简单性、灵活性,以及​​高效的实时渲染,使其适合捕获复杂的动态场景运动。

LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts
Authors Hanan Gani, Shariq Farooq Bhat, Muzammal Naseer, Salman Khan, Peter Wonka
基于扩散的生成模型显着改进了文本到图像的生成,但在处理描述具有多个对象的复杂场景的冗长且复杂的文本提示时遇到挑战。虽然擅长从简短的单个对象描述生成图像,但这些模型通常很难在更长、更复杂的文本输入中忠实地捕捉所有细微差别的细节。为此,我们提出了一种利用大型语言模型法学硕士从文本提示中提取关键组件的新颖方法,包括前景对象的边界框坐标、单个对象的详细文本描述以及简洁的背景上下文。这些组件构成了我们的布局到图像生成模型的基础,该模型分两个阶段运行。初始全局场景生成利用对象布局和背景上下文来创建初始场景,但通常无法忠实地表示提示中指定的对象特征。为了解决这个限制,我们引入了迭代细化方案,该方案迭代地评估和细化框级内容,以使它们与其文本描述保持一致,根据需要重新组合对象以确保一致性。我们对具有多个对象的复杂提示的评估表明,与基线扩散模型相比,召回率有了显着提高。

Video Language Planning
Authors Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson
我们感兴趣的是,利用在互联网规模数据上预训练的大型生成模型的最新进展,在生成的视频和语言空间中实现复杂的长期任务的视觉规划。为此,我们提出了视频语言规划 VLP​​,这是一种由树搜索过程组成的算法,其中我们训练视觉语言模型作为策略和价值函数,训练文本到视频模型作为动态模型。 VLP 将长视野任务指令和当前图像观察作为输入,并输出长视频计划,该计划提供详细的多模态视频和语言规范,描述如何完成最终任务。 VLP 随着计算预算的增加而扩展,其中更多的计算时间会导致视频计划的改进,并且能够跨不同的机器人领域合成长期视频计划,从多对象重新排列到多相机双臂灵巧操作。生成的视频计划可以通过目标条件策略转化为真实的机器人动作,以生成视频的每个中间帧为条件。

DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing
Authors Jia Wei Liu, Yan Pei Cao, Jay Zhangjie Wu, Weijia Mao, Yuchao Gu, Rui Zhao, Jussi Keppo, Ying Shan, Mike Zheng Shou
尽管在基于扩散的视频编辑方面取得了显着的研究进展,但由于长距离一致性和逐帧编辑之间的矛盾,现有方法仅限于短长度视频。最近的方法试图通过引入视频 2D 表示将视频编辑降级为图像编辑来应对这一挑战。然而,他们在处理大规模运动和视图变化视频时遇到了巨大的困难,特别是对于以人为中心的视频。这促使我们引入动态神经辐射场 NeRF 作为以人为中心的视频表示,以将视频编辑问题简化为 3D 空间编辑任务。因此,可以在 3D 空间中执行编辑并通过变形场传播到整个视频。为了提供更精细和直接的可控编辑,我们提出了基于图像的3D空间编辑管道和一组有效的设计。其中包括来自 2D 个性化扩散先验和 3D 扩散先验的多视图多姿势分数蒸馏采样 SDS、参考图像的重建损失、文本引导的局部部分超分辨率以及 3D 背景空间的风格迁移。大量实验表明,我们的方法(称为 DynVideo E)在两个具有挑战性的数据集上显着优于 SOTA 方法,就人类偏好而言,其性能大幅提高了 50 95。

Motion2Language, Unsupervised learning of synchronized semantic motion segmentation
Authors Karim Radouane, Andon Tchechmedjiev, Sylvie Ranwez, Julien Lagarde
在本文中,我们研究构建一个序列到序列架构,用于运动到语言的翻译和同步。目的是将动作捕捉输入翻译成英语自然语言描述,以便与​​执行的动作同步生成描述,从而实现语义分割作为副产品,但不需要同步的训练数据。我们提出了一种新的适合同步实时文本生成的局部注意力循环公式,以及一种改进的运动编码器架构,更适合较小的数据和同步生成。我们在 KIT 运动语言数据集上使用标准 BLEU4 度量以及简单的语义等价度量来评估各个实验中的这两种贡献。在后续实验中,我们通过多个评估指标评估我们提出的方法中生成文本的同步质量。我们发现,对注意力机制和编码器架构的贡献都提高了生成文本 BLEU 和语义等价性以及同步的质量。

Interpreting and Controlling Vision Foundation Models via Text Explanations
Authors Haozhe Chen, Junfeng Yang, Carl Vondrick, Chengzhi Mao
大规模预训练视觉基础模型(例如 CLIP)已成为各种视觉任务事实上的支柱。然而,由于其黑匣子性质,理解这些模型预测背后的基本规则和控制模型行为仍然是一个开放的挑战。我们提出了一个用自然语言解释视觉转换器的潜在标记的框架。给定一个潜在标记,我们的框架使用转换器的本地操作将其语义信息保留到最后一层,并检索最接近的文本进行解释。我们的方法可以理解模型视觉推理过程,而不需要额外的模型训练或数据收集。

BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools for Video-based Texts Generation
Authors Ji Qi, Kaixuan Ji, Jifan Yu, Duokang Wang, Bin Xu, Lei Hou, Juanzi Li
构建对视频用户指令生成文本响应的模型是一个实用且具有挑战性的主题,因为它需要视觉理解和知识推理。与语言和图像模态相比,训练效率仍然是一个严重的问题,因为现有研究是在大量稀疏视频上训练模型并与简短描述保持一致。在本文中,我们介绍了 BiLL VTG,这是一种快速自适应框架,它利用大型语言模型 LLM 对基于基本轻量级视觉工具的视频进行推理。具体来说,我们揭示了响应特定指令的关键是关注相关视频事件,并利用结构化场景图生成和描述性图像标题生成两种视觉工具来收集和表示事件信息。

Matching the Neuronal Representations of V1 is Necessary to Improve Robustness in CNNs with V1-like Front-ends
Authors Ruxandra Barbulescu, Tiago Marques, Arlindo L. Oliveira
虽然一些卷积神经网络 CNN 在对象识别方面取得了巨大成功,但它们很难识别被不同类型的常见噪声模式破坏的图像中的对象。最近,研究表明,在 CNN 前端的早期视觉区域中进行模拟计算可以提高对图像损坏的鲁棒性。在这里,我们进一步探讨了这一结果,并表明,通过精确匹配灵长类动物 V1 中发现的 RF 属性分布而产生的神经元表征是鲁棒性改进的关键。我们构建了模型的两种变体,其前端对灵长类初级视觉皮层 V1 进行建模,一种对 RF 属性进行均匀采样,另一种根据经验生物分布进行采样。生物采样模型对于图像损坏具有比均匀变量相对差 8.72 更高的鲁棒性。虽然这两个变体中相似的神经元亚群具有相似的响应特性并学习相似的下游权重,但对下游处理的影响却截然不同。

RefConv: Re-parameterized Refocusing Convolution for Powerful ConvNets
Authors Zhicheng Cai, Xiaohan Ding, Qiu Shen, Xun Cao
我们提出 Re 参数化 Refocusing Convolution RefConv 作为常规卷积层的替代品,这是一个即插即用的模块,可以在没有任何推理成本的情况下提高性能。具体来说,给定预训练模型,RefConv 将可训练的重聚焦变换应用于从预训练模型继承的基础内核,以建立参数之间的连接。例如,深度明智的 RefConv 可以将卷积核的特定通道的参数与另一个内核的参数相关联,即使它们重新关注他们从未关注过的模型的其他部分,而不是关注输入仅功能。从另一个角度来看,RefConv 通过利用预训练参数中编码的表示作为先验,并重新关注它们来学习新的表示,从而增强了现有模型结构的先验,从而进一步增强了预训练模型的表示能力。实验结果验证了 RefConv 可以在图像分类、对象检测和语义分割上将图像分类上的 top 1 准确率提高 1.47 倍,从而改善多个基于 CNN 的模型,而无需引入任何额外的推理成本或改变原始模型结构。

InfoGCN++: Learning Representation by Predicting the Future for Online Human Skeleton-based Action Recognition
Authors Seunggeun Chi, Hyung gun Chi, Qixing Huang, Karthik Ramani
基于骨架的动作识别最近取得了重大进展,InfoGCN 等模型显示出卓越的准确性。然而,这些模型存在一个关键限制,它们需要在分类之前进行完整的动作观察,这限制了它们在监视和机器人系统等实时情况下的适用性。为了克服这一障碍,我们引入了 InfoGCN,这是 InfoGCN 的创新扩展,专门为基于在线骨架的动作识别而开发。 InfoGCN 通过允许对动作类型进行实时分类(与观察序列的长度无关)来增强原始 InfoGCN 模型的能力。它通过从当前和预期的未来运动中学习来超越传统方法,从而创建整个序列的更全面的表示。我们的预测方法是作为一个外推问题来管理的,基于观察到的行为。为了实现这一点,InfoGCN 结合了神经常微分方程,这一概念可以有效地模拟隐藏状态的连续演化。经过对三个基于骨架的动作识别基准的严格评估,InfoGCN 在在线动作识别方面表现出了卓越的性能。它始终等于或超过现有技术,凸显了其重塑实时动作识别应用格局的巨大潜力。因此,这项工作代表了 InfoGCN 的重大飞跃,突破了在线、基于骨架的动作识别的极限。

Efficient Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories
Authors Jiyuan Shen, Wenzhuo Yang, Kwok Yan Lam
训练大型且最先进的机器学习模型通常需要使用大规模数据集,这反过来又使得训练和参数调整过程变得昂贵且耗时。一些研究人员选择将现实世界数据集中的信息提取为微小而紧凑的合成数据集,同时保持训练性能良好的模型的能力,因此提出了一种称为数据集蒸馏 DD 的数据高效方法。尽管该领域最近取得了进展,但现有方法仍然表现不佳,无法有效替代大型数据集。在本文中,与以前仅注重提高学生蒸馏效率的方法不同,我们是第一个认识到专家和学生之间重要相互作用的人。我们认为,在后续数据集蒸馏中采用更有效的专家轨迹时,专家平滑度会产生重大影响。基于此,我们引入了裁剪损失和梯度惩罚的集成来调节专家轨迹中参数变化的速率。此外,为了响应蒸馏过程中对随机初始化变量表现出的敏感性,我们提出了合成数据集的代表性初始化和平衡的内循环损失。最后,我们提出了两种增强策略,即中间匹配损失和权重扰动,以减轻累积误差的潜在发生。我们对不同尺度、大小和分辨率的数据集进行了广泛的实验。

Label-efficient Segmentation via Affinity Propagation
Authors Wentong Li, Yuqian Yuan, Song Wang, Wenyu Liu, Dongqi Tang, Jian Liu, Jianke Zhu, Lei Zhang
具有标签高效稀疏注释的弱监督分割吸引了越来越多的研究关注,以减少费力的像素明智标记过程的成本,而成对亲和建模技术在这项任务中发挥着至关重要的作用。大多数现有方法侧重于使用局部外观内核来建模相邻的成对电位。然而,这种本地操作无法捕获长范围依赖关系并忽略对象的拓扑。在这项工作中,我们将亲和力建模制定为亲和力传播过程,并提出局部和全局成对亲和力项来生成准确的软伪标签。还开发了一种有效的算法来显着降低计算成本。所提出的方法可以方便地插入现有的分割网络中。

Distribution prediction for image compression: An experimental re-compressor for JPEG images
Authors Maxim Koroteev, Yaroslav Borisov, Pavel Frolov
我们提出了一种以无损方式重新压缩 JPEG 图像的新方案。

Unifying Image Processing as Visual Prompting Question Answering
Authors Yihao Liu, Xiangyu Chen, Xianzheng Ma, Xintao Wang, Jiantao Zhou, Yu Qiao, Chao Dong
图像处理是计算机视觉的一项基本任务,旨在提高图像质量并提取后续视觉应用的基本特征。传统上,任务特定模型是为单个任务开发的,设计此类模型需要独特的专业知识。基于大型语言模型法学硕士在自然语言处理 NLP 领域的成功,计算机视觉领域也存在类似的趋势,重点是通过预训练和上下文学习来开发大规模模型。这种范式转变减少了对特定任务模型的依赖,产生了一个强大的统一模型来处理各种任务。然而,这些进步主要集中在高级视觉任务上,而对低级视觉任务的关注较少。为了解决这个问题,我们提出了一种通用图像处理模型,涵盖图像恢复、图像增强、图像特征提取任务、textit 等。我们提出的框架名为 PromptGIP,将这些不同的图像处理任务统一在一个通用框架内。受 NLP 问答 QA 技术的启发,我们采用了视觉提示问答范例。具体来说,我们将输入输出图像对视为结构化问答句,从而将图像处理任务重新编程为提示 QA 问题。 PromptGIP 可以使用提供的视觉提示承担各种文本跨域任务,从而无需进行特定于任务的微调。我们的方法为一般图像处理提供了通用且自适应的解决方案。

Evaluation and improvement of Segment Anything Model for interactive histopathology image segmentation
Authors SeungKyu Kim, Hyun Jic Oh, Seonghui Min, Won Ki Jeong
随着 Segment Anything Model SAM 作为图像分割的基础模型的出现,其应用已在包括医学领域在内的各个领域得到了广泛的研究。然而,它在组织病理学数据背景下的潜力,特别是在区域分割方面,受到的关注相对有限。在本文中,我们评估了 SAM 在组织病理学数据的零样本和微调场景中的性能,重点是交互式分割。此外,我们将 SAM 与其他最先进的交互模型进行比较,以评估其实际潜力并评估其泛化能力和领域适应性。在实验结果中,与其他模型相比,SAM 在分割性能方面表现出弱点,但在推理时间和泛化能力方面表现出相对优势。为了提高 SAM 有限的局部细化能力并增强即时稳定性,同时保留其核心优势,我们提出了对 SAM 解码器的修改。实验结果表明,所提出的修改可以有效地使 SAM 用于交互式组织学图像分割。

On the Transferability of Learning Models for Semantic Segmentation for Remote Sensing Data
Authors Rongjun Qin, Guixiang Zhang, Yang Tang
最近的基于深度学习的方法在遥感遥感语义分割分类任务上优于传统的学习方法。然而,它们需要大量的训练数据集,并且由于不同地理区域的遥感图像内容差异很大,因此通常缺乏可移植性。然而,还没有对其可迁移性进行全面分析,即在源域上训练的模型可以在多大程度上轻松适用于目标域。因此,在本文中,我们旨在研究传统和深度学习 DL 模型的原始可迁移性,以及领域适应 DA 方法在增强 DL 模型适应可迁移性的可迁移性方面的有效性。通过利用四个高度多样化的 RS 数据集,我们训练了使用和不使用三种 DA 方法的六个模型,以定量分析它们在这些数据集之间的可转移性。此外,我们开发了一种简单的方法来量化使用光谱指数作为介质的模型的可转移性,并证明了当标签不可用时,其在评估目标域的模型可转移性方面的有效性。我们的实验得出了一些关于原始可转移性和适应性可转移性的普遍重要但尚未得到充分报道的观察结果。此外,我们提出的无标签可转移性评估方法被验证优于后验模型置信度。研究结果可以指导广义 RS 学习模型的未来发展。

Combating Label Noise With A General Surrogate Model For Sample Selection
Authors Chao Liang, Linchao Zhu, Humphrey Shi, Yi Yang
现代深度学习系统需要大量数据。利用网络数据进行学习是可行的解决方案之一,但不可避免地会引入标签噪声,这会阻碍深度神经网络的性能。样本选择是处理标签噪声的有效方法。关键是根据某些标准分离干净的样品。以前的方法更注重小损失准则,将小损失样本视为干净样本。然而,这种策略依赖于每个数据实例的学习动态。由于经常发生损坏的学习模式,一些噪声样本仍然被记住。为了解决这个问题,首选免训练代理模型,不受记忆的影响。在这项工作中,我们建议利用视觉语言代理模型 CLIP 自动过滤噪声样本。 CLIP 引入外部知识,利用其文本图像对齐的能力来促进干净样本的选择。此外,边际自适应损失旨在规范 CLIP 引入的选择偏差,从而提供对标签噪声的鲁棒性。我们在现实世界和合成噪声数据集上验证了我们提出的方法的有效性。

On the Relevance of Temporal Features for Medical Ultrasound Video Recognition
Authors D. Hudson Smith, John Paul Lineberger, George H. Baker
许多医学超声视频识别任务涉及识别关键的解剖特征,无论它们何时出现在视频中,这表明对此类任务进行建模可能不会从时间特征中受益。相应地,排除时间特征的模型架构可能具有更好的样本效率。我们提出了一种新颖的多头注意力架构,它将这些假设合并为归纳先验,以在常见超声任务上实现更好的样本效率。我们在两种设置中将我们的架构与高效 3D CNN 视频识别模型的性能进行比较,一种是我们预计不需要时间特征,另一种是我们需要时间特征。在前一种设置中,我们的模型优于 3D CNN,尤其是当我们人为限制训练数据时。在后者中,结果相反。

Object Detection in Aerial Images in Scarce Data Regimes
Authors Pierre Le Jeune
对少镜头目标检测 FSOD 的大多数贡献仅在自然图像上评估其方法,但不能保证所公布性能的可移植性适用于其他类型图像的应用。我们通过对航空图像上现有 FSOD 方法的深入分析来证明这一点,并观察到与自然图像相比存在很大的性能差距。航拍图像中数量较多的小物体是自然图像与航拍图像之间明显性能差距的原因。因此,我们通过精心设计的注意力机制提高了小对象上的 FSOD 性能。此外,我们还提出了一种尺度自适应框相似性标准,可以改进 FSOD 方法的训练和评估,特别是对于小物体。我们还通过基于度量学习和微调的两种不同方法为通用 FSOD 做出贡献。通过微调方法取得了令人印象深刻的结果,该方法鼓励处理更复杂的场景,例如跨域 FSOD。我们朝这个方向进行了初步实验并获得了有希望的结果。最后,我们解决了 COSE 系统内检测模型的部署问题。必须以有限的计算能力对超过 100 兆像素的超大图像进行实时检测。

Longitudinal Self-supervised Learning Using Neural Ordinary Differential Equation
Authors Rachid Zeghlache, Pierre Henri Conze, Mostafa El Habib Daho, Yihao Li, Hugo Le Boit , Ramin Tadayoni, Pascal Massin, B atrice Cochener, Ikram Brahim, Gwenol Quellec, Mathieu Lamard
医学成像的纵向分析对于研究解剖结构或疾病随时间的进展变化至关重要。近年来,出现了一类新颖的算法,其目标是使用连续图像对或时间序列图像以自我监督的方式学习疾病进展。通过在没有外部标签或监督的情况下捕获时间模式,纵向自监督学习 LSSL 已成为一种有前途的途径。为了更好地理解这个核心方法,我们在本文中探讨了不同场景下的LSSL算法。原始的 LSSL 嵌入在自动编码器 AE 结构中。然而,传统的自我监督策略通常以类似暹罗的方式实施。因此,作为本研究的第一个新颖之处,我们探索了像 LSSL 这样的连体语言的使用。另一个新的核心框架名为神经常微分方程NODE。 NODE 是一种神经网络架构,它通过使用神经网络来学习常微分方程 ODE 的动力学。许多时间系统都可以通过 ODE 进行描述,包括对疾病进展进行建模。我们相信 LSSL 和 NODE 之间存在着有趣的联系。本文旨在更好地理解那些用于了解上述变化的疾病进展的核心算法。在我们的不同实验中,我们采用了名为 OPHDIAT 的纵向数据集,针对糖尿病视网膜病变 DR 随访。

DANAA: Towards transferable attacks with double adversarial neuron attribution
Authors Zhibo Jin, Zhiyu Zhu, Xinyi Wang, Jiayu Zhang, Jun Shen, Huaming Chen
深度神经网络虽然在很多领域都取得了优异的成绩,但很容易受到攻击样本的干扰,从而导致错误的判断。特征级攻击是有效的攻击类型之一,它针对隐藏层中学习到的特征,以提高其在不同模型之间的可迁移性。然而,据观察,可转移性很大程度上受到神经元重要性估计结果的影响。本文提出了一种双对抗神经元归因攻击方法,称为 DANAA,以获得更准确的特征重要性估计。在我们的方法中,模型输出基于对抗性非线性路径归因于中间层。目标是测量单个神经元的重量并保留对可转移性更重要的特征。我们对基准数据集进行了广泛的实验,以证明我们的方法的最先进的性能。

A Novel Benchmarking Paradigm and a Scale- and Motion-Aware Model for Egocentric Pedestrian Trajectory Prediction
Authors Amir Rasouli
预测行人行为是智能驾驶系统的主要挑战之一。在本文中,我们提出了一种评估以自我为中心的行人轨迹预测算法的新范例。基于各种上下文信息,我们提取驾驶场景,以采用有意义且系统的方法来识别预测模型的挑战。在这方面,我们还提出了一个新的指标,以便在基于场景的评估中进行更有效的排名。我们对这些场景的现有模型进行了广泛的实证研究,以揭示不同方法的缺点和优点。基于场景的分析强调了使用多模式信息源的重要性以及由于行人自我运动和规模建模不充分而带来的挑战。为此,我们提出了一种新颖的以自我为中心的轨迹预测模型,该模型受益于以有效且高效的逐步分层方式融合的多模态数据源以及旨在学习更强大的场景动态表示的两个辅助任务。

YOLOv7 for Mosquito Breeding Grounds Detection and Tracking
Authors Camila Laranjeira, Daniel Andrade, Jefersson A. dos Santos
随着气候变化威胁迫在眉睫,登革热、寨卡病毒和基孔肯雅热等被忽视的热带疾病有可能成为全球更严重的问题。遥感技术可以通过自动检测和绘制蚊子繁殖地点的地图,帮助控制埃及伊蚊(此类疾病的传播媒介)的传播,以便当地实体能够适当干预。在这项工作中,我们利用 YOLOv7(一种最先进且计算效率高的检测方法)来定位和跟踪无人机捕获的视频中的蚊子焦点。我们在一个向公众发布的数据集上进行了实验,该数据集是 ICIP 2023 年重大挑战的一部分,题为“蚊子繁殖地的自动检测”。

Prior-Free Continual Learning with Unlabeled Data in the Wild
Authors Tao Zhuo, Zhiyong Cheng, Hehe Fan, Mohan Kankanhalli
持续学习 CL 旨在逐步更新新任务的训练模型,而不会忘记旧任务所获得的知识。现有的 CL 方法通常通过任务先验来减少遗忘,即使用任务标识或先前看到的样本的子集进行模型训练。然而,当这些先验在现实世界的应用中未知时,这些方法将是不可行的。为了解决这个基本但很少研究的问题,我们提出了一种先验自由持续学习 PFCL 方法,该方法在不知道任务身份或任何先前数据的情况下学习新任务。首先,基于固定的单头架构,我们不需要任务标识来选择任务特定的输出头。其次,我们采用基于正则化的策略来实现新旧模型之间的一致预测,避免重新访问以前的样本。然而,单独使用这种策略在类增量场景中通常表现不佳,特别是对于长序列的任务。通过分析传统正则化方法的有效性和局限性,我们建议另外使用辅助未标记数据集来增强模型一致性。此外,由于一些辅助数据可能会降低性能,因此我们进一步开发了可靠的样本选择策略以获得一致的性能改进。对多个图像分类基准数据集的大量实验表明,我们的 PFCL 方法显着减轻了所有三种学习场景中的遗忘。此外,与重放有限数量的先前样本的最新基于排练的方法相比,PFCL 实现了有竞争力的准确性。

Loci-Segmented: Improving Scene Segmentation Learning
Authors Manuel Traub, Frederic Becker, Adrian Sauter, Sebastian Otte, Martin V. Butz
用于组合场景表示的面向槽的处理方法最近经历了巨大的发展。我们提出了 Loci Segmented Loci s,这是一种先进的场景分割神经网络,它扩展了基于槽的位置和身份跟踪架构 Loci Traub 等人,ICLR 2023。主要进步是 i 增加了预训练的动态背景模块 ii 超卷积编码器模块,可实现以对象为中心的自下而上处理 iii 级联解码器模块,可连续生成对象掩模、掩模深度图和掩模深度图通知 RGB 重建。背景模块的特点是学习前景识别模块和背景重新生成器。我们通过深度信息的集成以及通过时隙位置实体正则化和先验分割网络改进时隙分配来进一步提高性能。即使没有后面的这些改进,结果也显示出 MOVi 数据集和另一个已建立的数据集集合中的卓越分割性能。通过所有改进,Loci s 在 MOVi E 中实现了比之前最好的 32 更好的交集 IoU 分数。我们还表明 Loci 生成可很好解释的潜在表示。

Weakly Supervised Fine-grained Scene Graph Generation via Large Language Model
Authors Kibum Kim, Kanghoon Yoon, Jaeyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park
弱监督场景图生成 WSSGG 研究最近出现,作为严重依赖昂贵注释的完全监督方法的替代方案。在这方面,WSSGG 的研究利用图像描述来获得未定域三元组,同时主要关注将未定域三元组接地到图像区域。然而,他们忽略了标题中三元组形成过程中涉及的两个问题1从标题中提取三元组时出现语义过度简化问题,其中标题中的细粒度谓词被不期望地转换为粗粒度谓词,导致长尾谓词分布,2 当将标题中的三元组与感兴趣的实体谓词类对齐时,会出现低密度场景图问题,其中许多三元组被丢弃且未在训练中使用,导致监督不足。为了解决这两个问题,我们提出了一种新方法,即弱监督 SGG LLM4SGG 的大型语言模型,其中我们通过利用 LLM 在从字幕中提取三元组时对语言的深入理解和推理能力来缓解这两个问题。实体谓词类与目标数据的对齐。为了进一步让法学硕士参与这些过程,我们采用了思想链的思想和上下文中的少量学习策略。为了验证 LLM4SGG 的有效性,我们对视觉基因组和 GQA 数据集进行了广泛的实验,结果表明与最先进的 WSSGG 方法相比,召回 K 和平均召回 K 都有显着改进。

Towards Open World Active Learning for 3D Object Detection
Authors Zhuoxiao Chen, Yadan Luo, Zixin Wang, Zijian Wang, Xin Yu, Zi Huang
封闭世界 3D 对象检测、已知类别环境中的测试系统已取得重大进展。然而,在出现新对象类的开放世界场景中就会出现挑战。现有的工作以显着的注释成本从标记数据流中顺序学习新的类别,阻碍了在野外的有效部署。为了寻求有效的解决方案,我们研究了一项更实用但更具挑战性的研究任务“3D 对象检测的开放世界主动学习 OWAL 3D”,旨在选择少量的 3D 框进行注释,同时最大化已知和未知类的检测性能。核心困难在于在挖掘更多未知实例和最小化点云的标记费用之间取得平衡。根据经验
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值