Garfield2005-优快云博客

原创 Git 分支拓扑实践

本文提出了Git分支管理的两条核心规则：1) dev分支应使用rebase master而非merge master来保持拓扑同构；2) 上游代码只能进入集成分支(integration)，不能直接合并到dev/master。通过分析错误合并导致的拓扑混乱问题，文章详细阐述了正确的分支操作流程：upstream→integration→master→dev，并强调rebase操作对保持分支拓扑结构的重要性。最后指出，遵守这些规则能确保Git历史长期保持清晰、可维护。

2025-12-17 14:54:42 509

原创查找Docker 容器占用的磁盘空间

本文介绍了Docker容器占用磁盘空间的排查方法。当Docker环境磁盘空间耗尽时，可通过docker system df -v快速定位问题容器，利用docker inspect获取容器存储路径，再使用du命令统计可写层和日志目录大小。常见问题包括容器日志过大、应用缓存文件堆积等。文章提供了自动化脚本统计所有容器空间占用，并给出预防建议：限制日志大小、使用数据卷存储持久化数据、定期清理无用镜像容器。通过这套方法可以快速定位并解决Docker磁盘空间问题。

2025-12-11 14:57:47 753 1

原创 Google Antigravity 安装与常见登录问题

早期用户总体对 Antigravity 的功能性（agent 协作、artifact 日志等）与 Gemini 3 的能力给予肯定，但也出现大量“预览期”的稳定性与登录体验问题——包括账户设置卡住、登录时报错、与企业/Workspace 账户兼容性问题，以及网络/代理相关导致的编辑器无响应等。社区与 Reddit/StackOverflow 等处有大量相关讨论与临时解决建议。

2025-11-21 11:07:11 5127 9

原创如何优雅地同步和管理企业内部项目与上游开源代码的更新

本文介绍了一种高效管理企业基于开源项目二次开发的Git工作流。主要解决三大挑战：1）代码来源多样化（GitHub上游仓库与内部仓库并存）；2）需要定期同步上游更新；3）确保内部开发稳定性。方案分为两个核心步骤：首先设置双远程仓库（origin指向内部仓库，upstream指向开源项目），日常开发仅针对origin；其次通过创建临时分支进行rebase操作来同步上游更新，解决冲突后合并到主分支。这种方法既能保持代码线性历史，又能隔离同步风险，实现安全高效的开源项目维护。

2025-11-19 18:12:23 772

原创 Kubeflow 运行容器时 ENTRYPOINT 被覆盖导致环境变量未生效问题分析与解决

摘要在Kubeflow Pipelines中部署HDFS相关模型时，发现容器启动时ENTRYPOINT脚本未执行，导致CLASSPATH环境变量缺失。经排查发现，Kubeflow在生成PodSpec时若设置了command会覆盖镜像的ENTRYPOINT。提出了三种解决方案：1）提前设置静态CLASSPATH（不推荐）；2）避免在组件中指定command，仅通过args传参（推荐）；3）增强ENTRYPOINT脚本的自适应能力（复杂）。最佳实践是修改Kubeflow组件定义，仅传入args参数，确保镜像原

2025-11-13 17:47:23 740

原创 Nvidia显卡NVENC最大并发数量的探讨

摘要：NVIDIA消费级显卡（如RTX 4090）存在NVENC编码并发限制，最新驱动支持8路并发，但这是系统级限制（无论单卡或多卡）。专业显卡则无此限制。该限制由驱动程序控制，与SDK版本无关。测试显示NVDEC解码无硬性并发限制。建议高并发场景使用专业显卡或多机分布式方案，并确保驱动版本符合要求（Windows≥551.xx/Linux≥550.xx）。破解限制可能导致不稳定，生产环境不推荐。

2025-11-13 15:16:50 911

原创机器人仿真平台

本文概述了当前主流的机器人仿真平台及其特点，包括Gazebo、Webots、MuJoCo、Bullet/PyBullet、CoppeliaSim、NVIDIA Isaac Sim、Unity、CARLA和AirSim。这些平台各有优劣，适用于不同的应用场景，如机器人控制算法研究、自动驾驶仿真、强化学习训练等。Gazebo是ROS生态系统的标准仿真工具，而MuJoCo以其高精度接触动力学在强化学习领域占据重要地位。近年来，部分商业平台转向开源（如MuJoCo、Webots），而游戏引擎（Unity）和GPU加

2025-11-11 16:30:16 865

原创 ImportError: libGL.so.1: cannot open shared object file: No such file or directory

在无图形界面的服务器或Docker容器中部署OpenCV时，常会遇到ImportError: libGL.so.1错误。这是因为标准版opencv-python依赖图形库OpenGL，而精简环境中预装的图形库不足。解决方案是使用opencv-python-headless版本，它移除了所有GUI功能及相关依赖，保留核心计算机视觉算法。安装时需先卸载标准版，再安装对应的headless包。这种方法比手动安装图形库更轻量，适合后端服务、数据处理等无头环境应用。对于必须使用GUI功能的场景，可安装libgl1-m

2025-10-10 11:12:01 764

原创 BEVFormer: 基于时空 Transformer 的多相机鸟瞰图表示学习

BEVFormer是一种基于时空Transformer的多摄像头鸟瞰图(BEV)表示学习方法，由华中科技大学、商汤科技等机构提出。该方法通过CNN提取多视角图像特征，利用时空Transformer编码器构建BEV特征表示，并采用Decoder进行3D目标检测。核心创新点在于统一的时空Transformer框架，能够有效融合历史时序信息，在nuScenes基准上显著提升了基于相机的3D检测性能。代码解析部分详细介绍了特征提取、历史BEV特征获取以及BEVFormer Head的关键实现细节，包括查询嵌入、BE

2025-09-29 09:52:49 738

原创 PyTorch OneCycleLR 深度解析：一场关于“值”与“顺序”的终极辩论

学习率配置的底层逻辑解析本文深入分析了深度学习框架中学习率配置的底层机制，特别聚焦于OneCycleLR调度器与优化器参数的交互关系。研究发现，学习率配置存在三个关键层级：优化器初始学习率（如optimizer.lr=0.002）仅用于初始化参数组的默认值参数组指定学习率（如param_dicts.lr=0.0002）会覆盖默认值 OneCycleLR的max_lr最终决定实际使用值，它会按参数组顺序覆盖所有组的学习率实验表明，改变优化器中的lr初始值不会影响训练，因为OneCycleLR会完全接管

2025-09-23 15:40:50 1059

原创点云分割中 offset 与 batch 表示的转换详解

本文解析了点云分割数据处理中offset、bincount和batch三种关键数据表示方式的转换逻辑。offset标记样本边界，bincount记录每个样本点数，batch表示点所属样本。通过四个核心函数（offset2bincount、bincount2offset、offset2batch、batch2offset）实现三者间的相互转换，这些转换基于差分、累加和重复展开等操作。理解这些转换关系有助于掌握点云批处理的数据流动机制，为处理不规则点云数据提供有效方法。文章通过示例和图解直观展示了各参数间的对应

2025-09-18 14:44:53 1031 1

原创模型&算法文章汇总

本文汇总了技术文档和论文资源，涵盖自动驾驶和点云领域。重点介绍了自动驾驶BEV（鸟瞰图）感知方向的综述论文《Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving》，该论文于2025年8月发布在arXiv平台，但未提供作者单位及论文简介。同时还收录了点云等其他技术领域的相关文章资源。

2025-09-18 14:25:19 156

原创绕过 FlashAttention-2 限制：在 Turing 架构上使用 PyTorch 实现 FlashAttention

FlashAttention 核心思想通过PyTorch张量操作实现本文针对FlashAttention-2不支持Turing架构的问题，提出了一种基于PyTorch的实现方案。FlashAttention通过分块计算和I/O优化显著提升了Transformer模型的效率。作者采用PyTorch张量操作模拟其核心逻辑，包括：将QKV矩阵分块处理迭代计算分块注意力累积结果合并实现方案包含核心文件flash_attn_torch.py和验证文件flash_attention_verify.py。测试表

2025-09-12 16:19:57 843

原创 Point Transformer V3（PTv3）【4：体素采样GridSample】

本文介绍了PTV3专题目录中的序列化编码、降采样和上采样方法，重点分析了GridSample类的实现。GridSample通过网格化处理和哈希函数对点云数据进行采样，支持训练和测试两种模式。在训练模式中，采用随机采样策略并保留标注点；测试模式则处理所有网格点。该类提供了多种可选输出，包括逆映射、网格坐标和位移等。该实现适用于大规模点云数据处理，支持高效的特征提取和采样操作，为点云分析任务提供了灵活的网格化解决方案。

2025-09-10 14:51:52 1094

原创 Point Transformer V3（PTv3）【3：上采样unpooling】

点云分割中的特征上采样：SerializedUnpooling解析本文详细介绍了点云分割任务中的关键组件SerializedUnpooling的工作原理。该模块通过巧妙地利用池化时保存的"父子关系"信息（pooling_parent和pooling_inverse），实现了低分辨率点云特征到高分辨率空间结构的精准上采样。文中首先展示了该模块的代码实现，然后通过具体示例详细解释了特征广播和融合的过程，包括如何利用索引张量将低维特征复制到高维结构中。最后，文章通过问答形式进一步澄清了核心操

2025-08-29 19:39:50 1195

原创 Point Transformer V3（PTv3）【2：降采样pooling】

本文介绍了SerializedPooling点云池化模块的实现原理。该模块基于序列化编码（如Morton码）对点云进行下采样，通过位移操作将邻近点分组聚合。关键实现包括：1)初始化时设置通道数、步幅（2的幂）、聚合方法等参数；2)前向传播时利用序列化编码进行空间分组，使用torch_scatter实现特征聚合；3)支持特征投影、归一化和激活操作。该方法计算高效，适用于序列化点云数据的处理。

2025-08-29 11:06:26 885

原创 git开发基础流程

本文介绍了基于Git分支开发的规范流程，强调区分"同步"和"整理"两个关键操作。核心要点是：频繁使用git fetch同步远程仓库信息（不修改本地代码），在功能完成准备推送时再进行git rebase -i整理提交历史。具体流程包括：1)开始工作前同步master分支；2)本地开发提交；3)推送前交互式变基整理提交；4)强制推送分支。通过示例演示了如何将多个小提交整理为有意义的大提交，确保代码基于最新master开发，减少合并冲突。这种模式既能保持信息同步，又不会干扰

2025-08-25 11:16:45 612

原创 Windows下Gemini CLI登录问题

在Windows下配置GeminiCLI时，常因代理问题导致认证失败(ETIMEDOUT错误)。解决方法是通过PowerShell设置临时环境变量：将HTTP/HTTPS_PROXY设为"http://127.0.0.1:10809"（注意端口需比实际代理端口10808大1）。该方案源自官方GitHub issue #1802，设置后即可正常完成Google认证流程。

2025-08-13 11:51:57 1214

原创 DITR：DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation

《DINO in the Room：利用2D基础模型提升3D分割性能》提出了一种创新方法DITR，通过2D视觉基础模型（VFMs）增强3D语义分割。针对3D数据稀缺问题，DITR开发了两种策略：注入方法（Injection）将冻结的DINOv2特征投影到3D空间并融入点云分割网络；蒸馏方法（D-DITR）通过知识迁移实现无图像推理。实验表明，该方法在ScanNet、nuScenes等多个数据集上达到SOTA性能，尤其在稀疏点云场景中提升显著。消融研究验证了多尺度特征注入和大型VFM的有效性。该工作为弥补3D

2025-07-30 16:25:10 1047

原创 UniSeg3D：A Unified Framework for 3D Scene Understanding

UniSeg3D提出了一种创新的统一三维场景理解框架，通过单一Transformer模型实现了六种分割任务（全景/语义/实例/交互式/指代/开放词汇分割）的集成处理。该框架的核心创新包括共享查询表示、统一掩码解码器以及通过知识蒸馏和对比学习建立的任务间关联机制。实验表明，UniSeg3D在ScanNet等基准测试中全面超越专用方法，推理效率提升显著（230ms处理六项任务）。尽管在室内场景表现优异，研究也指出其对提示位置敏感、室外泛化能力待验证等局限，为未来研究指明了扩展方向。这项工作为多任务三维理解提供了

2025-07-30 16:17:58 1329

原创 Nvidia平台上的视频编解码、图像编解码

本文介绍了NVIDIA提供的Python视频/图像硬件编解码接口PyNvVideoCodec和nvImageCodec。PyNvVideoCodec提供ThreadedDecoder、SimpleDecoder和CreateDecoder三种解码接口，其中CreateDecoder能处理原始h264视频但输出YUV格式，需配合CV-CUDA样例进行格式转换。编码部分支持NCHW张量格式。nvImageCodec可与PyTorch交互，但仅限Linux平台。源码和样例可在NVIDIA NGC和GitHub获取

2025-07-09 09:59:28 997

原创 Point Transformer V3（PTv3）【1：序列化编码】

本文介绍了点云序列化方法，通过空间填充曲线（如Z-order和Hilbert曲线）将3D点云映射为1D序列，保留空间邻近性。以6个点的小型点云为例，详细演示了Z-order曲线编码过程：离散化坐标后通过比特交错生成唯一编码值，排序后实现了邻近点（如P0/P2）在序列中相邻。改进的Trans曲线变体可捕捉标准曲线忽略的空间关系。该方法具有O(N log N)的排序复杂度，显著优于KNN的O(N²)，且支持动态切换不同曲线类型。实验结果验证了其在保持空间局部性方面的有效性，为点云处理提供了高效解决方案。

2025-07-02 16:13:43 1381

原创 GPU常见规格及算力

本文梳理了NVIDIA多款GPU的关键参数和特性，涵盖Turing、Ampere、Ada和Blackwell架构产品。重点分析了算力指标差异：Turing架构（2080Ti/T4）仅支持稠密计算，FP16/INT8性能基于TensorCore理论值；Ampere及后续架构引入结构化稀疏技术（2:4模式），使稀疏算力可达稠密算力两倍。特别说明Thor（Blackwell）的FP8/FP4性能优势，以及Orin芯片的DLA加速器贡献额外算力。文档还澄清了FP32算力与TensorCore的关系，强调稀疏算力的硬

2025-06-24 17:03:07 1464

原创使用子树合并策略更新git项目的部分目录

摘要：本文介绍了使用git subtree策略更新项目中第三方库的方法。针对本地项目project_local中vpf/PyNvCodec和vpf/PytorchNvCodec两个目录需要同步线上项目project_online最新版本(v1.1)的需求，推荐使用git subtree pull命令实现精确目录更新。该方法能保留本地其他修改、维护清晰提交历史，并支持后续持续更新。文章详细解析了git subtree pull的工作原理、路径映射机制和冲突处理方法，比较了与普通合并的区别，并提供了使用示例和常

2025-06-05 10:51:41 896

原创在linux平台下利用mingw64编译windows程序

本文记录了在Linux平台下使用CMake和MinGW-64工具链交叉编译Windows应用程序的过程。作者原本计划在Linux下跨平台编译，但遇到了一些问题，最终选择通过MinGW-64进行Windows平台的编译。文章详细介绍了安装MinGW-64环境、编写CMakeLists文件以支持交叉编译的步骤，并提供了编译脚本示例。重点提到了OpenCV库的依赖问题，强调需要使用相同工具链编译的库，并给出了相关参考资源。整个过程展示了如何利用CMake和MinGW-64在Linux环境下高效地构建Windows

2025-05-19 19:41:30 612

原创如何将github上的代码仓库同步到个人的私有仓库

github代码同步到私有仓库

2025-03-26 18:02:21 588

原创 “thrust“ has no member “device“

安装nvidia的MinkowskiEngine库时，报错：“thrust” has no member “device”（其实还有其他错误，这些错误的本质原因是一样的）

2025-03-25 19:55:03 605 4

原创 RuntimeError: NYI: Named tensors are not supported with the tracer

使用 torch.where 替换布尔索引是调整代码以避免 ONNX 导出异常的最推荐方法。

2025-03-10 10:19:40 914

原创 nvidia-container-toolkit安装的网络问题

目前在容器内使用GPU都需要安装nvidia-container-toolkit，官方的安装方法为：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html以上方法很简单，但经常性的问题是网络问题，在第一步就卡着了。

2025-03-03 17:20:43 1022

原创深度学习资料收藏

收集一些常用的地址，主要是文件下载地址。

2025-02-21 19:04:58 178

原创安装mmdet3d报错【fatal error: spconv/maxpool.h: No such file or directory】

但是想确认谁提供的这个头文件，还是比较麻烦的，需要研究源码的实现。所以笔者采取偷懒的方法：先看源码中是否有该文件（包括源码中依赖的第三方源码），方法也和简单：直接整个目录下搜索该文件。从上图可以看到，目录下有maxpool.h、mp_helper.h、spconv_ops.h等各种头文件，正式之前编译时报错的这些文件。那就奇怪了，源码中有需要的头文件，编译命令中也包含了该include的路径，怎么会找不到呢？至此，报错原因找到，源码打包上传python库时有问题，导致pip安装时下载的源码不对。

2025-02-19 20:19:38 945

原创 RuntimeError: CUDA error: operation not supported when calling `cusparseCreate(handle)`

使用pytorch训练模型时，代码中有一行笔者的环境是：cuda版本：/usr/local/cuda下的cuda版本为11.6GPU：4090nvidia驱动版本：535.161。

2025-02-19 16:59:26 718

原创从H264视频中获取宽、高、帧率、比特率等属性信息

最近整理视频编解码的代码，早前在jetson上封装了jetson multimedia作为视频编解码的类，供其他同事和其他组使用，但该解码接口有一个问题，无法首先获取视频宽高信息，更无法直接获取视频的帧率、比特率等信息。本人对ffmpeg接口并不熟悉，以上根据文档及搜索结果进行的实现，不敢保证没有bug，如果各位遇到问题，可以留言交流。

2024-11-14 11:17:01 940

原创 RuntimeError: CUDA error: an illegal memory access was encountered

使用mmdetection3d训练基于BEV的点云模型时出现该异常。

2024-11-06 10:39:50 876

原创 Pegasus平台Pytorch源码编译

注意：当完全按照以下步骤进行编译时，如果出现错误，注意检查CUDA版本、对应的库是否存在。和Drive PX2的编译没有什么区别。

2024-06-28 19:46:44 621 1

原创 PX2资料及问题记录

(2019年5月13号的回答)https://devtalk.nvidia.com/default/topic/1051664/general/tensorrt-python-example-code-for-reference-no-directory-for-python-as-per-documentation。官方论坛：https://devtalk.nvidia.com/default/board/182/drive-px2/mxnet可以在Nvidia的TX2上安装，但没有提供PX2版本。

2024-06-28 19:45:18 567

原创 PX2平台Pytorch源码编译

【代码】PX2平台Pytorch源码编译。

2024-06-28 19:43:21 473

原创 GPU设置

nvidia-settings -a ‘[gpu:0]/GPUFanControlState=1’ -a ‘[fan:0]/GPUTargetFanSpeed=60’ 无法直接在没有X server的服务器上直接运行。针对某张卡设置功率：nvidia-smi -i 1 -pl 150, 将第1张卡的最大功率设置为150。不限制最高功率(默认最高功率250W)：最高温度85°，大多时间在75°-85°之间。将最高功率限制为150W：最高温度81°，大多时间在70°-81°之间。

2024-06-28 19:34:12 2981

原创 CUDA 编程

# blocksize和gridsize设置。

2024-06-28 19:32:19 701

原创 ImportError: /usr/local/lib/python3.8/dist-packages/flash_attn_2_cuda.cpython-38-x86_64-linux-gnu.so

调试网络时用到了FalshAttention，直接用的是flash_attn这个库，出现了以下异常。

2024-05-29 14:48:48 2913 3

在Turing 架构上使用 PyTorch实现FlashAttention

详细说明见：https://blog.youkuaiyun.com/Garfield2005/article/details/151620804

2025-09-12

MinGW-W64 x86-64-posix-opencv4.5.5

使用mingw64在windows10平台上编译的opencv库： -- General configuration for OpenCV 4.5.5 ===================================== -- Version control: unknown -- -- Platform: -- Timestamp: 2025-05-19T09:15:53Z -- Host: Windows 10.0.18362 AMD64 -- CMake: 4.0.2 -- CMake generator: MinGW Makefiles -- CMake build tool: C:/msys64/mingw64/bin/mingw32-make.exe -- Configuration: Release -- -- CPU/HW features: -- Baseline: SSE SSE2 SSE3 -- requested: SSE3 -- Dispatched code generation: SSE4_1 SSE4_2 FP16 AVX AVX2 AVX512_SKX -- requested: SSE4_1 SSE4_2 AVX FP16 AVX2 AVX512_SKX -- SSE4_1 (13 files):

2025-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

在Turing 架构上使用 PyTorch实现FlashAttention

MinGW-W64 x86-64-posix-opencv4.5.5

C++跨平台编程-ubuntu平台基于mingw开发windows程序

GMM（高斯混合模型）详细推导

第6讲+MATLAB在最优化中的运用

2013豆瓣校园招聘算法类笔试题

空空如也