- 博客(17)
- 收藏
- 关注
原创 论文解读:【CVPR24 Highlight】LangSplat: 3D Language Gaussian Splatting
摘要: 清华与哈佛团队提出的LangSplat(CVPR 2024 Highlight)基于3D高斯溅射技术,实现了开放词汇的3D场景交互(如物体定位与分割),解决了现有方法LERF的速度与精度缺陷。通过替换NeRF为高效高斯溅射,LangSplat渲染速度提升199倍;结合SAM的层级分割,消除边界模糊与语义歧义;并设计场景专属自编码器压缩CLIP特征,降低35倍内存开销。实验表明,该方法在语言查询任务中兼具实时性与高精度。 关键词: 3D高斯溅射、开放词汇查询、SAM分割、自编码器、实时交互
2025-07-04 07:58:05
1120
原创 【CVPR25】LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D
LogoSP:基于局部-全局超点分组的无监督3D点云语义分割(CVPR 2025 | 港理工) 本文提出LogoSP方法,解决现有无监督3D语义分割方法在特征质量和分组策略上的不足。核心创新包括:1)通过2D-3D特征蒸馏模块获取语义先验;2)自下而上的超点生长策略;3)基于图傅里叶变换的全局超点分组方法。具体实现中,首先利用预训练2D模型提取特征并投影到3D点云,然后通过超点生长构建层次结构,最后在频域中分析全局模式生成高质量伪标签。实验表明,该方法在多个基准数据集上优于现有技术,尤其在复杂场景中展现出更
2025-06-30 08:43:20
1179
原创 论文解读:【CVPR2025最佳论文】VGGT: Visual Geometry Grounded Transformer
CVPR2025最佳论文奖,来自牛津的VGG实验室。提出了真正的端到端重建: VGGT是一个前馈式(feed-forward)神经网络,仅需一次前向传播,就能在数秒内直接从输入的单张、少量或数百张图像中,一次性预测出场景的全套3D关键属性,包括相机内外参数、深度图、点图和3D点轨迹。
2025-06-30 08:37:41
3925
1
原创 论文解读:【NeurIPS 2023】 Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with Foundation
来自NIPS2023,本文提出Bridge3D框架,通过自监督学习弥合3D模型与多模态基础模型之间的领域差距。该框架包含三个核心组件:(1)基于基础模型生成的语义掩码指导3D掩码自编码器,提出前景感知的掩码与补丁丢弃策略;(2)场景级多模态知识蒸馏,利用图像描述生成技术对齐3D点云与文本/图像特征;(3)对象级知识蒸馏,通过解码器重构机制将视觉与文本特征融入3D表示学习。实验表明,该方法在下游任务中优于现有技术,首次实现了多基础模型协同的3D场景理解。相关工作为探索3D与语言/视觉的跨模态学习提供了新思路。
2025-06-30 08:33:50
850
原创 论文解读:SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Scene Segmentation
通过这种方式,3D 点充当nature prompt,以对齐从该 3D 点跨不同帧投影的pixel prompt,从而使同一 3D 对象的pixel prompt及其 SAM prediction mask在帧之间表现出一致性。最初在 3D 场景的 2D 帧上生成的prompt无法传播到覆盖其他帧中新出现的object,从而导致整个场景的分割不完整(c)(prompt时采用regular grid prompt,视角变化的话,prompt可能会消失)投影到的prompt可能不是最合适的)
2024-08-27 17:29:26
839
原创 论文解读:Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels
首先使用 SAM 自动生成的 2D 掩模来预训练与类别无关的 3D 分割模型,这些掩模被投影到部分 RGB-D 点云。为此,在第二阶段,我们利用预训练模型的高置信度掩模预测作为训练信号,以自监督的方式在全 3D 点云上微调模型。Stage2 预训练预测中选高Score的参与监督,只对mask做loss,不对是否“object”做loss,如果将正确的mask预测为“无效”物体对训练有害(可理解为标签噪声的影响)2D 模型泛化能力和零样本能力强,启发:将 2D 模型的这些特征融入到 3D 模型中。
2024-08-27 17:24:53
406
原创 论文解读:SAM3D: Segment Anything in 3D Scenes
2.第一帧点云中的object mask(mask id为m)map到第二帧点云中的object mask(mask id为n),σmn为第二针点云中object mask id为n的点数量,σm为第一帧点云中maskid为m的点数量,σn为第一帧点云中maskid为n的点数量,满足下式则认为高度重叠,可合并成一个mask,其中阈值0.5。之后再将第一帧和第二帧点云调换过来重复上述步骤,将第一帧点云中id为n的mask改为id为m。之后将第二帧点云中id为m的mask改为id为n。
2024-08-27 17:20:38
1568
原创 vscode清除远程连接的本地缓存
查看本地remote-ssh(远程连接)缓存删除本地remote-ssh(远程连接)缓存。背景:实验室有服务器,经常用自己电脑的vscode远程连接实验室服务器,但是实际上连接的是服务器的docker,如果改配置比如改了GPU和CPU数量时,会重新开一个docker去连接,且该docker里的vscode-server配置需要重新下载且复制到本地,这样本地会占用很大缓存。
2023-02-14 09:51:23
13721
1
原创 Vscode远程连接服务器终端zsh+Oh-my-zsh + Powerlevel10 + Autosuggestions + Autojump + Syntax-highlighting
本人在Mac端已经配置好了iterm2 + Oh-my-zsh + Powerlevel10 + Autosuggestions + Autojump + Syntax-highlighting的终端(terminal)环境,但是想用Vscode远程连接服务器,并且想把服务器的终端也同步一下,于是记录如何远程配置服务器的Oh-my-zsh + Powerlevel10 + Autosuggestions + Autojump + Syntax-highlighting的终端环境。......
2022-08-07 11:16:51
3069
原创 soft-nms numpy-python实现软非极大值抑制精简代码
soft-nms相对于nms整个改进只需要使用绿色虚线表示的Soft-NMS替换红色虚线表示的NMS。B集合是检测到的所有建议框,S集合是各个建议框得分(分数是指建议框包含物体的可能性大小),Nt是指手动设置的阈值。M为当前得分最高框,bi 为待处理框。相比其他网站的代码,此soft-nms代码实现非常精短,先给出iou的代码:def iou(bbox,gt): #lt是两个框中间重叠框的最左边和最上边的坐标,rb是两个框中间重叠框的最右边和最下边的坐标 lt = np..
2022-03-08 11:09:34
4694
3
原创 NMS-python-numpy 精简非极大值抑制代码
参考别人的代码,发现别人的代码比较繁琐,以下是精简后的NMS代码,代码可读性强,最后给出可视化图以及可视化代码(可视化是参考别人的代码)NMS过程:1 将各组box按照score降序排列2 从score最大值开始,置为当前box,保存idex,然后依次遍历后面的box,计算与当前box的IOU值,若大于阈值,则抑制,不会输出3 完成一轮遍历后,继续选择下一个非抑制的box作为当前box,重复步骤24 返回没有被抑制的index即符合条件的boxNMS在过程中需要计算iou,所以
2022-03-08 10:01:56
841
原创 论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network
1.瓶颈问题:小尺度目标,受限于缺乏足够的目标特征信息,使之很难从背景中区分出来,且小尺度目标一般都是低分辨率、模糊不清的,因此检测性能一般CNN-based目标检测算法都需要使用到下采样操作,导致小尺度目标不仅损失了空间位置信息,且本来很少的目标特征几乎被背景上的特征给淹没了2.本文贡献:提出了一种用于小物体检测的新型统一端到端多任务生成对抗网络(MTGAN),可以与任何现有的检测器结合使用在MTGAN中,生成器网络生成超分辨率图像,并引入多任务判别器网络,以同时区分真实的高分辨率
2022-03-07 15:52:32
4172
原创 论文解读:跨模态/多光谱/多模态检测 Cross-Modality Fusion Transformer for Multispectral Object Detection
(可见图像和热成像)右侧的热图像可以在光照不足的情况下捕捉到更清晰的行人轮廓。 此外,热图像还捕捉到被柱子遮挡的行人。在光线充足的白天,视觉图像比热图像具有更多的细节,例如边缘、纹理和颜色。有了这些细节,我们可以很容易地找到隐藏在机动三轮车中的司机,而这在热图像中是很难找到的。1.瓶颈问题:现实世界中环境是不断变化的,比如雨天,雾天,晴天,...
2022-03-07 15:44:14
16009
9
原创 论文解读TransFG: A Transformer Architecture for Fine-grained Recognition
论文解读TransFG: A Transformer Architecture for Fine-grained Recognition问题:Transformer还未应用在图像细分类领域中贡献点:1.vision transformer的输入把图像切分成patch,但是是没有overlap的,文章改成切分patch用overlap(这只能算个trick)2.Part Selection Module通俗讲就是最后一层的输入与vision transformer不同,即把最后一层前.
2021-04-09 17:07:03
3441
9
原创 python爬虫中requests库和正则表达式之淘宝爬虫实战
#python版本基于2.7使用requests库是需要安装的,requests库相比urllib 库来说更高级方便一点,同时与scrapy相比较还是不够强大,本文主要介绍利用requests库和正则表达式完成一项简单的爬虫小项目----淘宝商品爬虫。有关于更多requests库的使用方法请参考:官方文档第一步:我们先打开淘宝网页
2018-02-06 14:29:49
1693
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅