chumo-xu-优快云博客

原创浮躁学习指北

2.方法论：从面向结果到面向过程：费曼学习法，不断地讲述不断地深入自己的理解与思路；可以找sota模型跑，但是更重要的是根据一个好项目详细理解并学懂好code；1.心态调整：允许自己慢下来，切记科研和人生更重要的是深度而非绝对的速度；让类似“自己真正理解了xx与xx之间的关系”而非“自己调通什么code 提升什么index”当作自己的进步。-->导致自己很难对一个东西有自己深刻的认识；做项目总是top--down而不是bottom--up；最近，也不是最近，感觉自己一直学习都比较浮躁，浅尝辄止。

2025-09-08 18:50:23 140

原创 opencv提取双目视频的左目图像集

【代码】opencv提取双目视频的左目图像集。

2025-06-16 18:22:09 167

原创 foundationstereo使用指南

然后npy2png发现左侧深度图不对因为需要把hy-tmp/FoundationStereo/scripts/run_demo.py的--remove_invisible改成不去掉。同时注意要把hy-tmp/FoundationStereo/assets/K.txt这里的相机内参换成自己的内参否则尺度对应不上。单次推理代码记得打开hyy的ai加速因为需要科学上网下载一个小的权重。把视频的双目数据裁剪出来最后导入的是左右两个文件。创建环境用issue里的方法创建不然报错。

2025-05-29 02:10:21 615 1

原创 Transformer学习记录

具体记录见此共享文档。

2025-04-29 01:44:47 754

原创世界模型简述

这种从简单的环境模拟器到能够模拟复杂物理和社会动态的通用模拟器的演变，标志着世界模型概念的深化和扩展 2。世界模型（World Models）是人工智能（AI）领域一个日益重要的概念，指的是智能体（agent）学习到的关于其环境动态的内部表征或模拟。该工作的关键贡献在于将这些（当时已知的）组件巧妙结合，并成功展示了在一个紧凑的潜在空间（由世界模型生成，即在“梦境”中）完全训练控制器来解决挑战性的强化学习任务（如像素输入的赛车游戏CarRacing-v0和VizDoom）2。

2025-04-27 18:19:23 2965

原创 MonST3R总结

MonST3R的流程是：先根据finetune过的DUSt3R模型来对每一帧的动态场景进行点图估计，然后使用PNP估计出每帧图像的外参（当你有一个三维物体和它在图像上的表示，你就可以推测出来相机在什么位置拍摄的照片。再使用真正的光流估计模型估计真实的两张图像，来得到真正的光流F2；传统的动态估计遵循的流程一般是多阶段的：光流估计--相机位姿估计--深度估计--重建点云。找到静态区域之后，可以进行优化：比如优化相机的外参，有了静态区域做连接可以准确的估计相机外参，进而优化姿态，优化点图估计，优化深度。

2025-04-22 22:09:07 265

原创 DUSt3R总结

使用ViT作为编码器和解码器，用预训练的CroCo(一种较新的vit网络)权重来初始化，给的监督数据都是使用一对图像，然后通过ViT编码解码学习到二维图像和三维点图的对应关系，最后可以直接在第一张图像的坐标系中输出两个图像的点图，同时使用global alignment来对齐点图中的的相关区域(比如一个桌子图一重建出的点图都桌子上面图二有桌子侧面就可以把相连接的桌角的点图进行alignment)。DUSt3R是一种端到端（end to end）的模型，摒弃了这些多步骤的误差。

2025-04-08 18:53:15 460

原创 3DGS代码讲解

确保训练时的可复现性，并配置 GUI 服务器（用于实时查看渲染结果）。：循环进行训练，不断优化 3D 高斯点，使其渲染结果更接近真实图像。：优化高斯点，使其能够更好地表示 3D 物体，同时删除不必要的点。解析用户输入的命令行参数，并从 arguments.py。，如果提供了 checkpoint，则恢复之前的训练状态。，广泛用于计算机图形学、光照建模和 3D 表示。：解析用户输入的参数，并设置训练相关的配置。阶数越大对颜色光照的表达效果越好。：确保 3DGS 生成的图像在。上都与真实图像一致。

2025-03-05 22:59:47 2086

原创 3DGS详解

所以在投影变换之后均值可以直接变成m(uk)因为一个点的值不受非仿射变换的影响但是对于协方差矩阵原本没法像观测变换一样直接进行变换因为不是线性仿射变换所以求这个投影变换的雅可比矩阵用这个雅可比矩阵作为近似变换矩阵来进行投影变换（近似仿射变换）协方差就是左右成雅可比矩阵以及其转置。将一个坐标系进行非仿射变换后发现一个点周围的线都是完全的-非线性但是如果将这个点的区域进行无限的缩小会发现近似为直线--线性。针对这一点的方法时打补丁--太大的点云拆分--太小的点云合并--存在感低的点云删除。

2025-03-05 20:41:35 1176

原创恒源云等云端服务器实现3DGS

因为你选环境的时候选好了torch1.12.1 cuda11.6 不用再create一个新的环境。3.用supersplat线上看导入你的ply文件即可记得设置splat模式和隐藏splat。2.下载文件到win本地然后用官方文件给的Viewer for Windows这个app看。在你的jupyernotebook里面新建一个data包把卡车数据集放到里面并解压。把里面的卡车数据集下载到本地然后打包成zip文件通过oss传到恒源云云端数据。把和3DGS要求的相关的C++的装上。

2025-03-04 18:26:42 441

原创 How to Read a Paper

4.finally。

2025-02-05 21:31:35 1046

原创 pytorch学习教程（小白版代码实操）

是 PyTorch 的核心功能之一，用于自动计算张量（Tensor）的梯度（Gradient）。梯度是优化神经网络参数的关键（如梯度下降法），手动计算梯度非常复杂且容易出错，而自动微分通过跟踪张量的运算历史，自动构建计算图（Computational Graph），并在反向传播（Backpropagation）中高效计算梯度。

2025-01-23 00:48:57 342

原创 pytorch使用

先查看显卡和激活环境。然后使用下述代码测试。

2024-04-02 18:52:38 462 1

原创恒源云的上传下载以及迁移数据

建议使用oss传输数据，账号和密码是恒源云的登陆账号密码。

2024-03-12 10:14:38 1678 1

原创 EfficientNet网络

Dropout层的dropout_rate对应的是drop_connect_rate，和全连接层对应的dropout要区分开(注意，在源码实现中只有使用shortcut且drop_rate大于0 的时候才有Dropout层，至于为什么可以参考第四节的解释)。表格中每个MBConv后会跟一个数字1或6，这里的1或6是倍率因子n (channels变胖倍数)，即MBConv中第一个1x1的卷积层会将输入特征矩阵的channels扩充为n倍。但光宽不深的话，学习不到深层次的特征，且要综合衡量计算量的问题。

2024-03-11 23:40:58 1139 1

原创图像分类网络的几个评价指标

t-SNE可视化是一种非线性的降维算法，常用于将数据降维到二维或者三维空间进行可视化，来观察数据的结构。ROC曲线的凸起程度越高，模型性能越好。AUC = 1表示完美分类器，该模型至少存在一个阈值，可以将正负样本完美地分开。ROC曲线的横纵坐标均为0到1，其中，横坐标为假正率FP，纵坐标为真正率TP。0.5 < AUC < 1表示优于随机猜测，数值越大，分类器越好。真阳性、假阳性、真阴性、假阴性：TP、FP、TN、FN。混淆矩阵：x轴为Prediction，y轴为Label。F1值：F1 score。

2024-03-11 23:20:01 845 1

m0_57346422的博客