- 博客(45)
- 收藏
- 关注
原创 RoMo: Robust Motion Segmentation Improves Structure from Motion
看起来像是一篇投稿CVPR的文章,不知道被哪个瞎眼审稿人拒了。同期还有一篇CVPR被接收的工作Segment Any Motion in Videos,看起来不如这篇直白(也可能是因为我先看过spotlesssplats的缘故),后面也应该一并介绍了的。总体来说:就是如何给sam2提供一个很好地prompt,获得视频序列的dynamic mask 分割结果。
2025-04-05 23:12:41
235
原创 Segment Any 4D Gaussians
直接4DGS+GS grouping存在问题: 由于存在GS漂移,所以会导致无法满足同一GS所有时刻都表示同样的物体,导致错误表示。所以作者提出,应该不同时刻的同一GS可能属于不同的类?这点我真的有点难以理解,但加入时刻t作为输入后,效果又确实变好了。那么我觉得应该思考一些,那一篇tracking文章的约束,保证高斯的移动方向要一致,是不是就可以解决漂移问题,从而再次保证不同时刻的同一GS表示同一物体?文章核心是对GS分类时要加入时间信息,但是如果GS本身就已经被区分为动静态的话,还需要这样做吗?
2025-03-05 18:20:54
29
原创 Hugging Face网络连接问题
趁着模型下载,记录一下hugging face遇到的网络连接问题,难道只有我想吐槽这个垃圾的科研环境什么时候是个头吗?hugging face到底方便了谁,又绊住了谁。到底什么时候才能没有那堵墙?感觉大家都挺坦然接受的。每次配环境面临的问题是在日本的几倍甚至几百倍。
2025-02-12 14:44:56
146
原创 Neuralangelo代码重点部分
又是一篇新文章,最近完全没有动力搞下去,不知道是因为要放假了还是想退学,anyway,有了一点点新的idea想基于这篇文章验证一下。
2025-01-12 14:26:35
201
原创 写给自己的一些心得体会(+年终总结)
总之,不要投机取巧,不要视而不见,我想我一瞬间还是会产生些邪恶的念头,不过在想象自己站在演讲台讲述自己论文的时候心虚的样子,一切就会戛然而止。曾经我会抱怨团队,抱怨实验室没显卡,现在即使在一个完美的团队,我依然还是这样,真的全是我自己的问题,浮躁、不愿意深度思考问题,论文看得太少、表达能力太差。我时常在想我在日本的这几个月到底收获了什么,我不知道这样的生活是不是还该继续,我是不是真的没办法搞科研,我真的好希望有一天骄傲的站在演讲台上讲述自己的文章,又或许那一天永远也不会来临。
2024-10-26 15:49:01
284
1
原创 Ref-NeuS参数记录
这篇文章中的uncertainty估计非常值得参考,尤其是寻找当前view到其他view的投影点,这里记录一下这部分代码的参数,因为它起名实在太混乱了!!
2024-10-02 12:03:09
228
1
原创 Aborted (core dumped)
这里有两个值,四个pixel的avg按正常的值求出来,没有梯度;主要是怎么从中心点出发,扩大半径以求解对应的normal,这里为了不增加额外计算,就把sdf_lloss那部分不同半径同一位置计算的sdf删掉了,即: cal_sdf_loss=False,但显然这样或造成计算图不一致报错(我猜是这个原因),总之加入额外计算后就不再报错了。
2024-09-16 12:52:52
205
原创 K-Planes代码记录
原文,又要换baseline,可是效果不好能怎么办呢,我可不可以发疯。k-planes的代码又是非常工程琐碎的,大佬的代码果然不顾小白死活。随便记录下整个过程。
2024-07-01 17:02:54
572
原创 Tri-MipRF: Tri-Mip Representation for Efficient Anti-Aliasing Neural Radiance Fields
按照这个版本安装,tinycudann不在报错。(好烦啊,主页上还说要安装cu11.6,结果根本不可以)
2024-01-24 11:23:27
998
5
原创 nerf-studio初体验
整个安装过程非常简单,运行得也很丝滑,最大的难点在于中文资料太少,英文看得头痛。本文也是参考了许多链接,有些比我写得详细多了,各位选择性看吧。
2023-06-29 14:12:48
1258
1
原创 NeRF+SLAM论文阅读笔记
2.编码方式:one-blob(提升未观察到区域的补全能力和一致性)编码方式根据场景表示(hash网格)制定。iMap:由于实时性的要求,iMap使用系数采样和减少迭代次数提升效率,造成丢失高频细节&增大误差。1)场景表示:联合坐标+参数编码-------MLP---------->RGB和SDF。3)mapping:从所有帧采样的全局射线进行全局BA,联合优化map&pose。场景表示:如八叉树、哈希/体素网格等虽然可以提升效率,但缺乏MLP固有的。1.场景表示:多分辨率哈希网格(加速&保留高频特征)
2023-06-15 10:26:41
1830
4
原创 深度估计阅读记录
使用SDF这种表示方式替换NeRF中的MLP,使得在获得更准确的结果。我们通过的函数来实现这一点(We achieve that by modeling the volume density as a function of the geometry.)。:1. 将体密度利用公式转为SDF,使得alpha和beta是可学习的参数。其余看不懂。总之,文章的核心应该在于,从而可以将desity表示为SDF进行优化,以及实现一系列其他目的,比如:分离颜色和几何。
2023-06-08 15:07:28
820
原创 NeRF-SLAM代码记录
因为有相关依赖,所以尽量使用命令下载代码。2. 新建nerf-slam环境,github上也没提到python是哪个版本,这里就随便选了一个(这个github真的好简陋),下面这几行都是按照mip-nerf-pytorch的代码安装的3.安装torch到这一步就彻底卡住了5.编译,在执行,(以下顺序不太记得了)会出现无数个错误出现接着出现hash - r然后出现,需要进行一系列的安装接着出现以上全都安装完成后,执行以下命令,应该需要几分钟时间吧这个步骤遇到过很多奇奇怪怪的错误,以下逐一列出。
2023-05-28 22:24:44
1074
1
原创 Point-SLAM: Dense Neural Point Cloud-based SLAM阅读记录
早期的场景表示使用TSDF,之后使用可扩展(scalable)的表示方式,如:octree等,更进一步地,还可以在tracking上加入loop做改进(BundleFusion);解决noise depth maps(RoutedFusion),NeuralFusion和 DI-Fusion在此基础上进行扩展;使用RGB作为输入;优化测试时间…
2023-05-15 21:32:49
1837
1
原创 windows跑通instant-ngp过程记录
总之先使用git命令下载一部分(这一部分也会随机报错,多尝试求好运吧),然后等子模块报错时再一个个去denpendencies下载。,需要注意的是,要跟着youtube或者b站视频来安装,视频时长20min左右。
2023-03-24 18:39:34
1484
5
翻译 SLAM中坐标系的转换问题
t2=[0.3,0.1,0.1]^T (q的第一项为实部。这里的q和t的表达的是Tcw,也就是世界到相机的变换关系。小萝卜二号的位姿为q2=[-0.5,0.4,-0.1,0.2],t=[-0.1,0.5,0.3]设有小萝卜一号和小萝卜二号位于世界坐标系中,小萝卜一号的位姿为:q1=[0.35,0.2,0.3,0.1],T ,求该向量在小萝卜二号坐标系下的坐标,请编程实现此事。T_1w :表示世界坐标系到小萝卜一号坐标系的变换关系。T_2w:表示世界坐标系到小萝卜二号坐标系的变换关系。
2023-02-27 20:39:29
445
原创 NICE-SLAM: Neural Implicit Scalable Encoding for SLAM论文阅读记录
论文看到一半的时候给别人安利,突然被问起这篇文章创新点是什么,我竟然答不出来,又看了个寂寞,于是写下这篇总结。
2023-02-18 22:23:38
1730
5
原创 DSGN++记录
以上如此复杂,3D Camera转点云,对点云进行截取,再点云转图像,为什么不直接使用图像2D粘贴呢?是因为路面那里需要伪点云吗?也包括是否重合更好判断吧。可以展示出最后的增强的效果(只是单独的copy_paste策略,其他的增强方法在后续的for循环中可以看到)。7. 把图像投影至检测框的大小,使用Opencv函数视觉投影(6. 读取点云和图像,点云似乎没有用到只是添加进了列表里。后面就是字典的添加,没耐心细看了,返回一个字典。8. 将图像对应像素点替换为warp后的图像。
2022-11-22 22:12:59
705
原创 使用DSGN++训练自己的数据集
今天在看waymo数据集的时候突然发现也有灰度相机,回想了一下kitti也是灰度相机,莫非…双目相机大部分都不是全彩色?(waymo数据集需要自己去了解+下载)关于如何使用DSGN++测试waymo数据集,我大致有直接利用OpenPCDet里读取数据集的方法,生成waymo数据集下的.pkl文件,修改.yaml中数据集路径。把tfrecord中的数据全部读取出来,包括label、lidar、calib、image等,像kitti一样进行组织,再生成.pkl文件。
2022-11-18 17:17:32
861
8
原创 记录kitti数据集的坐标系转换问题
P0~P4相机内参相机外参3D相机坐标系(x,y,z,1) —>2D图像(u,v,1)世界坐标系/点云坐标系(X,Y,Z,1) —>3D相机坐标系(x,y,z,1)维度不变 3*4添加维度 3*4到4*4Tr_velo_to_cam称为外参矩阵,由旋转+平移矩阵构成,为了保证维度,需要同时对点云和矩阵进行升维。总之,就是一个内参、一个外参,一个不加维度,一个变为4*4,相应的数据也都跟着多了一维。看起来似乎很简单,但我还是看了好几天。
2022-11-07 11:50:22
3360
10
原创 ConnectionRefusedError: [Errno 111] 拒绝连接 vscode调试代码
搜索了一堆方法,不是废话就是无效。这个界面,找到冲突的端口然后关掉。
2022-10-25 21:03:18
2385
翻译 记录DSGN++环境配置过程
DSGN++: Exploiting Visual-Spatial Relation for Stereo-based 3D Detectors 1.PSV通道数过小,导致3D特征表示能力差2.只对俯视图进行特征提取和使用(3DGV——(x,y,z))3.类别不平衡(目标检测任务都有)1.提出Depth-wise PV(此处没懂怎么就Depth-wise了?),未增加通道个数,在保证了计算效率的情况下又不影响特征的局部性2.使用前视图和俯视图联合提取特征3.数据增强方法复制-粘贴策略)
2022-10-11 18:18:59
2545
19
原创 点云3D目标检测之——尝试SFD代码跑通(超详细!!)
在kitti数据集上目前排名前三,文章通俗易懂(也可能是我没看懂)(这部分后面再补吧)
2022-09-28 15:42:42
4880
16
原创 Linux系统Python3.8安装Mayavi包
通过翻阅各大资料可知,python3.7和python3.6都会好安装一些,而且百度搜到的教程普遍都是3.7以下+windows系统,这让我花费了一天安装,但其实命令很简单,只是版本匹配的问题。
2022-09-26 09:45:19
2380
13
原创 点云作业python基础
4.又或者将DataFrame转为Numpy类型,使用o3d.points = o3d.utility.Vector3dVector(points)或者o3d.normals = o3d.utility.Vector3dVector(normals)再保存为o3d类型,进行可视化等操作。运算是根据行列索引进行的,相同列相同行(指行列索引)对应的数据做运算,不是共同拥有的行列索引也会保留下来,但是对应的结果为NaN。操作后可以使用pynt.points=df重新改变pynt,再转为o3d。
2022-08-10 18:32:00
391
原创 pytorch基本函数练习
基础操作数据类型数据生成索引和切片维度变换进阶操作boardcast机制合并和分割(1)合并torch.cat() 函数,需保证除了合并维度外的其他维度size一致(2)分割torch.stack() 函数,保证两个合并张量size完全一致数学运算(1)运算符号运算+ 等价于 torch.add()加法- 等价于 torch.sub()减法* 等价于 torch.mul()乘法/ 等价于 torch.div()除法**乘方
2022-05-24 21:10:37
399
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人