- 博客(6)
- 收藏
- 关注
原创 torch.backends.cudnn.benchmark 的作用
例如对图像进行采样,通常的做法是使用多层循环嵌套,对每一个通道的每一个区域,用同样的卷积核进行卷积操作,然后继续滑动,直到direct 到整张图像。通常情况下,在使用大的卷积核是会具有更快的速度,而且每层算法的卷积核大小是不同(这种优化更符合实际的情况)。我们只要固定输入大小都是 (8, 64, 224, 224),即 batch_size 为 8,输入的通道为 64,宽和高为 224,那么卷积层的运行时间都是几乎不变的,无论其中每个像素具体的值是 0.1 还是 1000.0。
2023-06-27 18:30:47
565
原创 【论文笔记】X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning
X-Trans2Cap 通过single 3D 模型支持的知识蒸馏有效地提高了单模态 3D 字幕的性能。在训练阶段,教师网络利用辅助的 2D模态并通过特征一致性约束引导仅以点云作为输入的学生网络。在 ScanRefer 和 Nr3D 数据集上分别约为 +21 和 +16 CIDEr point.1.介绍 计算机视觉社区在图像字幕 [3,25,33,46,50] 和密集字幕 [24-26,30] 方面取得了重大进展。与使用单个句子描述 2D 图像的图像字幕不同,密集字幕 (DC) 可以更...
2023-06-27 17:28:12
500
1
原创 pip 安装本地 setup.py 和 wheel安装
今天在搭建项目环境时,从github中下载个人开发工具时因为网络问题,不能安装到本地。于是把项目中的子目录和所需要的wheel下载到本地。
2023-06-24 18:14:52
2329
1
原创 Feature-metric Registration 论文总结
其中r(F(P), F(RQ+t)) = || F(P)−F(RQ+t)||2是P与变换后的q之间的特征度量投影误差F(P)∈RK是点云P的特征,K是特征维数(实验中使用1024),F是Encoder模块学习到的特征提取函数。为了解决配准问题,如图2所示,我们使用逆合成算法(非线性优化)来估计变换参数,以最小化特征度量投影误差。在第二分支中,通过计算投影误差r来表示两个输入特征之间的差异,并通过最小化特征差异来估计最佳变换。(3)现有的基于学习的配准方法依赖于大量的配准标签数据,这使得。
2023-04-06 22:48:37
265
1
原创 【论文笔记】MV3D:Multi-View 3D Object Detection Network for Autonomous Driving
摘要本文针对自动驾驶场景中的高精度3D对象检测。我们提出了多视点三维网络(MV3D),这是一个以激光雷达点云和RGB图像为输入,预测定向三维边界框的传感器融合框架。我们用一个紧凑的多视图表示来编码稀疏的三维点云。该网络 由两个子网络组成: 一个用于三维物体建议生成,另一个用 于多视图特征融合。提案网络从三维点云的鸟瞰图表示中有效地生成三维候选框。我们设计了一个深度融合方案,将来自多个视图的区域特征结合起来,使不同路径的中间层之间能够相互作用。在具有挑战性的KITTI基准上的实验表明, 我们的方法在 3d
2022-04-26 14:30:39
3111
1
原创 【论文翻译】A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects
摘要 卷积神经网络(CNN)是深度学习领域最重要的网络之一。由于 CNN 在 许多领域取得了令人瞩目的成就,包括但不限于计算机视觉和自然语言处理,它在过去几年中引起了业界和学术界的广泛关注。现有的评论主要集 中在 CNN 在不同情景下的应用,没有从一般的角度来考虑 CNN,而且最近提出的一些新颖的想法也没有包括在内。在这篇综述中,我们的目标是 在这个快速发展的领域提供尽可能多的新想法和前景。此外,不仅仅是二维卷积,还包括一维和多维卷积。首先,这篇综述从简单介绍 CNN 的历史开始。其次...
2022-02-23 18:46:11
2822
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人