- 博客(21)
- 收藏
- 关注
原创 Visual Programming: Compositional visual reasoning without training (视觉编程:无需训练的组合视觉推理)
我们提出了 VISPROG,这是一种神经符号方法,用于根据自然语言指令解决复杂且组合的视觉任务。VISPROG 避免了任何特定于任务的训练(无需训练)。相反,它使用大型语言模型的上下文学习能力来生成类似 Python 的模块化程序,然后执行这些程序以获得解决方案以及全面且可解释的基本原理。生成的程序的每一行都可以调用几个现成的计算机视觉模型、图像处理子程序或 Python 函数之一来产生中间输出,这些输出可能会被程序的后续部分使用。
2025-02-05 12:15:45
758
2
原创 Learning Deep Intensity Field for Extremely Sparse-View CBCT Reconstruction
摘要稀疏视图锥束CT(CBCT)重建是降低辐射剂量和临床应用的一个重要方向,以往基于体素的重建方法将CT表示为离散体素,由于使用3D解码器,导致存储要求高和空间分辨率有限。我们将CT体积表示为连续强度场,并开发了一种新的DIF网络,以从极稀疏(≤10)CT的强度场可以被认为是3D空间点的连续函数。因此,重建可以被重新表述为从给定的稀疏投影回归任意3D点的强度值。具体地,对于一个点,DIF-Net从不同的2D投影视图中提取其视图特定的特征。这些特征随后由融合模块聚合用于强度估计。值得注意的是,可以并行处理
2024-05-26 20:23:30
1188
原创 Geometry-Aware Attenuation Field Learning for Sparse-View CBCT Reconstruction
摘要:锥形束CT(Cone Beam Computed Tomography,CBCT)是目前口腔医学中应用最广泛的一种成像方法,要重建一幅高质量的CBCT图像,需要进行数百次的X线投影(即,衰减场)在传统算法中,表示“稀疏”之义视图CBCT重建已成为降低辐射剂量的主要研究方向,但由于数据量不足或重建的泛化能力差,已进行了多次尝试来解决该问题本文提出了一种新的衰减场编码-解码器框架,首先对来自多视角X射线投影的体特征进行编码,然后将其解码为期望的衰减场,我们遵循了多视角CBCT重建的本质,强调了多视角C
2024-05-26 20:13:34
835
原创 MedNeRF: Medical Neural Radiance Fields for Reconstructing 3D-aware CT-Projections from a Single X-r
我们的模型是在胸部和膝盖数据集上训练出来的,我们展示了定性和定量的高保真渲染,并将我们的方法与其他最新的基于辐射场的方法进行了比较。为了训练我们的模型,我们生成DRRs,而不是收集成对的x射线和相应的CT重建,这将使患者暴露在更多的辐射中。此外,我们还渲染了给定单视角 X 光片的医疗实例的 CT 投影,并展示了我们的模型在覆盖表面和内部结构方面的有效性。因此,我们的目标是将GRAF的方法转化为我们的任务,在第II-C节中,我们描述了我们的新鉴别器架构,它允许我们从drr中分离出3D属性。
2024-05-26 20:01:13
1141
原创 NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction(中文标题:稀疏视图CBCT重建的神经衰减场)
ASDPOCS的重建结果是严重模糊的,因为全变差正则化鼓励去除高频细节,包括不必要的噪声和预期的微小结构。在哈希编码的帮助下,所提出的NAF结果具有最多的细节,最清晰的边缘和最少的伪影。首先,不充分的视图会导致显著的工件。总的来说,这些方法在具有小投影的数据集(胸部、下巴和脚)上花费的时间更少,而在大数据集(腹部和主动脉)上花费的时间越来越多。在每个分辨率级别,我们1)检测查询点p的相邻角c(图1(b)中不同颜色的立方体),2)以哈希函数方式H[23]查找其对应的特征H, 3)使用线性插值生成特征向量i。
2024-05-26 19:58:52
1028
原创 SNAF: Sparse-view CBCT Reconstruction with Neural Attenuation Fields
摘要锥形束ct (Cone beam computed tomography, CBCT)已广泛应用于临床,尤其是牙科诊所,但其成像中x射线捕获时的辐射剂量一直是CBCT成像中关注的问题。一些研究工作已经提出了从稀疏视图2D投影重建高质量的CBCT图像,但目前的技术水平受到人工制品和缺乏精细细节的影响。在本文中,我们通过学习神经衰减场提出SNAF用于稀疏视图CBCT重建,其中我们发明了一种新的视图增强策略,以克服稀疏输入视图数据不足带来的挑战。我们的方法在高重建质量(即30+ PSNR)方面实现了卓越的
2024-05-19 21:00:58
1002
原创 NeAT: Neural Adaptive Tomography
图1所示。神经自适应断层扫描使用混合显式-隐式神经表示层析图像重建。左:输入是一组x射线图像,通常具有病态的几何配置(稀疏的视图或有限的角度覆盖)。中心:NeAT将场景表示为在每个叶节点上具有神经特征的八叉树。本文提出了一种高效的可微分渲染算法。右图:通过神经渲染,NeAT可以重建三维几何结构,即使是病态构型,同时进行几何和辐射自校准。摘要:在本文中,我们提出了神经自适应断层扫描(NeAT),这是第一个用于多视图逆绘制的自适应分层神经绘制管道。通过将神经特征与自适应显式表示相结合,我们实现了远优于现
2024-05-19 20:57:57
784
原创 ColonNeRF: Neural Radiance Fields for High-Fidelity Long-Sequence Colonoscopy Reconstruction
摘要结肠镜重建是诊断结直肠癌的关键。然而,精确的长序列结肠镜重建面临三个主要挑战:(1)结肠的弯曲形状导致结肠各节段之间的不相似性;(2)简单折叠几何结构与复杂折叠几何结构共存;(3)摄像机轨迹约束下的稀疏视点。为了应对这些挑战,我们引入了一种新的基于神经辐射场(NeRF)的重建框架,名为ColonNeRF,它利用神经渲染进行长序列结肠镜检查的新视图合成。具体来说,为了以分段的方式重建整个冒号,我们的ColonNeRF引入了区域划分和积分模块,有效地减少了形状的不相似性,并确保了每个部分的几何一致性。为
2024-05-19 20:45:58
1059
原创 A Point Set Generation Network for 3D Object Reconstruction from a Single Image
摘要利用深度神经网络生成三维数据已经引起了学术界越来越多的关注。大多数现存的作品诉诸于规则的表示,如体积网格或图像集合;然而,这些表示模糊了三维形状在几何变换下的自然不变性,并且还存在许多其他问题。在本文中,我们解决了从单幅图像进行三维重建的问题,生成了一种直接形式的输出点云坐标。伴随着这个问题出现了一个独特而有趣的问题,即输入图像的真值形状可能是模糊的。在这种非正统的输出形式和基础真理固有的模糊性的驱动下,我们设计了新颖有效的架构、损失函数和学习范式。我们的最终解决方案是一个条件形状采样器,能够从输入
2024-05-19 20:17:05
941
原创 3D Brain Reconstruction by HierarchicalShape-Perception Network from a SingleIncomplete Image
摘要三维形状重建对于手术环境间接而狭窄的微创手术和自动机器人引导手术的导航至关重要。 然而,术中突发事件(如出血)和风险控制条件造成的信息缺乏和不完整问题尚未得到考虑。本文提出了一种新颖的分层形状感知网络(HSPN),以较低的延迟从单个不完整图像重建特定大脑的三维点云(PC)。我们构建了一个分支预测器和多个分层注意力管道,以生成能准确描述不完整图像的点云,然后高质量地完成这些点云。同时,设计了注意力门块 (AGB),以有效聚合分层注意力管道传输的不完整 PC 的几何局部特征和重建点云的内部特征。利用所提
2024-05-19 19:52:41
1108
原创 Semantic-NeRF: Semantic Neural Radiance Fields(Semantic-NeRF:语义神经辐射场)
摘要语义标记与几何和辐射重建高度相关,因为具有相似形状和外观的场景实体更有可能来自相似的类。最近的隐式神经重建技术很有吸引力,因为它们不需要事先的训练数据,但同样的完全自监督方法对于语义来说是不可能的,因为标签是人类定义的属性。我们扩展神经辐射场(NeRF)来联合编码语义与外观和几何形状,以便使用少量特定于场景的就地注释来实现完整且准确的2D语义标签。 NeRF 内在的多视图一致性和平滑性通过使稀疏标签能够有效传播而有益于语义。当房间规模场景中标签稀疏或非常嘈杂时,我们展示了这种方法的好处。我们在各种
2024-05-17 15:25:09
1009
原创 Point-NeRF: Point-based Neural Radiance Fields(Point-NeRF:基于点的神经辐射场)
摘要NeRF [34] 等体积神经渲染方法可生成高质量的视图合成结果,但针对每个场景进行优化,导致重建时间过长。另一方面,深度多视图立体方法可以通过直接网络进行推理快速重建场景几何。 Point-NeRF 通过使用神经 3D 点云以及相关的神经特征来对辐射场进行建模,从而结合了这两种方法的优点。 Point-NeRF 可以通过在基于光线行进的渲染管道中聚合场景表面附近的神经点特征来高效渲染。此外,Point-NeRF可以通过预先训练的深度网络的直接推理来初始化,以产生神经点云;该点云可以进行微调,以超越
2024-05-17 15:19:37
1020
原创 分割/目标检测数据集制作工具
labelimg标注完数据之后以.xml数据的格式进行保存,只能创建矩形框更加适用于目标检测制作数据集,如YOLO,而labelme以.json文件的数据格式进行保存,可以创建多种类型的边框进行标注,适用于图像分割,如MaskRcnn。
2023-11-27 10:50:41
493
原创 基于暗通道先验复原—ACE增强方法的图像去雾研究(含代码)
一、图像去雾的基本概况视觉是人类获取信息的主要方式,随着信息技术的发展,人类生产、生活越来越离不开图像。然而在现实生活中,人们拍摄的图像的质量往往受到多种情况的影响。随着成像设备的精度和功能日趋增强,导致图像质量下降的原因主要取决于拍摄的环境,其中雾和霾就是影响图像质量的主要因素之一。雾是由悬浮近地面空气中微小水滴或冰晶组成的天气现象,是近地面层空气中水汽凝结(或凝华)的产物。霾是悬浮在大气中的大量微小尘粒、烟粒或盐粒的集合体,使空气浑浊,水平能见度降低到10km以下的一种天气现象。从视觉效果上看,雾和
2023-05-06 10:32:18
4525
1
原创 MNIST 数据集——手写字符识别(未调用现有库,bp和knn,含代码)
MNIST 数据集——手写字符识别(未调用现有库,bp和knn,含代码)
2022-06-17 12:39:54
2647
原创 浅说遍历学习和批次学习(含代码)
代码:import matplotlib.pyplot as pltimport numpy as np# 这两行代码解决 plt 中文显示的问题plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False#数据加载x = np.array([0.0,1.0,2.0,3.0,4.0]);t = [0.0,0.35,0.76,1.15,1.6];#参数设定w_0 = 0...
2021-09-25 11:08:26
298
Visual Programming: Compositional visual reasoning without training (视觉编程:无需训练的组合视觉推理)
2025-02-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人