- 博客(804)
- 资源 (3)
- 收藏
- 关注
原创 Ubuntu命令行使用百度网盘
本文介绍了在Ubuntu系统上使用bypy工具快速传输百度网盘文件到服务器的方法。由于服务器无法挂代理且xftp传输速度慢,作者推荐使用百度网盘会员配合bypy命令行工具。具体步骤包括:1)通过pip安装bypy;2)运行bypyinfo获取授权码完成登录;3)使用bypydownload命令下载网盘文件。这种方法有效解决了服务器直接下载受限的问题,显著提高了大文件传输效率。参考链接提供了更详细的使用说明。
2025-11-20 11:20:43
186
原创 Ubuntu 24.04安装中文输入法
摘要:本文详细介绍在Ubuntu24.04安装中文输入法的完整流程。首先通过命令行安装fcitx输入法框架,然后在系统设置中管理安装语言包并选择中文支持,最后在键盘设置中添加具体的中文输入法。文章提供了从软件安装、语言包配置到输入法选择的分步指导,并提示可能需要系统重启。适合不同水平的Ubuntu用户参考,帮助实现流畅的中文输入体验。(96字)
2025-11-14 22:38:38
215
原创 FASTer运行笔记
FASTer框架安装与使用指南 本指南提供了长时序激光雷达3D目标检测框架FASTer的完整安装和使用流程。该框架采用Transformer架构,通过焦点Token获取与自适应缩放机制,有效解决了长序列数据处理中的计算冗余问题。 1. 环境配置 创建Python 3.8虚拟环境 安装PyTorch 2.0及CUDA 11.8支持 配置关键依赖项:numpy、tensorflow、spconv等 通过setup.py完成框架安装 2. 数据集准备 NuScenes数据集: 下载官方数据集并规范目录结构 安装n
2025-11-13 12:00:13
1078
原创 LION运行笔记
LION是华中科技大学与百度团队提出的新型3D点云检测框架,通过引入线性循环神经网络(LRNN)显著提升长序列建模能力。安装需配置Python3.8环境,安装PyTorch等基础依赖及点云处理相关库(如spconv-cu118)。数据准备基于NuScenes数据集,需下载并按照指定目录结构组织数据,安装nuscenes-devkit(1.0.5)后运行数据处理脚本生成标注信息。该框架通过线性RNN有效平衡计算效率与检测精度,为点云处理提供新思路。
2025-11-11 00:15:25
526
原创 seqtrack3d运行笔记
本文介绍了在conda环境中安装SeqTrack3D所需依赖的完整流程。首先创建并激活Python 3.9的conda环境,然后依次安装PyTorch系列(2.1.0版本)、NumPy等基础库。接着配置Pointnet2_PyTorch项目及其依赖项,并安装pomegranate等特定版本库。最后完成包括pyquaternion、pytorch-lightning、nuscenes-devkit等辅助工具链的安装。整个安装过程通过指定版本号确保环境兼容性,为3D目标跟踪系统SeqTrack3D搭建了完整的运
2025-11-05 11:17:14
209
转载 清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
《ImpromptuVLA:面向非结构化道路的开放权重与数据驱动的视觉-语言-动作模型》提出了一套专为解决自动驾驶在非结构化场景(如乡村道路、施工区域等)数据匮乏问题的大规模数据集。该数据集从8个公开来源精选8万条视频片段,涵盖边界模糊道路、临时交通规则变动等四大挑战场景,采用视觉-语言模型进行多任务标注并经人工核验。实验表明,基于该数据集训练的模型在NeuroNCAP测试中碰撞率降低7%(72.5%→65.5%),轨迹预测L2误差达0.30m,接近专用方法性能。研究为开发适应复杂场景的自动驾驶系统提供了关
2025-10-19 18:48:36
266
转载 Python数据验证库Validators
Python的Validators库简化了数据验证流程,支持邮箱、URL、IP等常见格式校验。通过简洁API实现快速验证,如validators.email("test@example.com")返回True/False。支持自定义规则,适合表单验证、API参数检查等场景。相比其他验证工具更轻量专注,显著提升开发效率。安装简单(pip install validators),是Python数据验证的便捷解决方案。
2025-10-18 22:51:58
134
转载 FastTracker:从“识人”到“识万物”,一个更通用的多目标跟踪框架
FastTracker:新一代通用多目标跟踪框架 摘要:针对当前多目标跟踪系统在非行人场景泛化能力不足的问题,FastTracker提出创新解决方案。该系统采用"检测后跟踪"范式,创新性地引入两项关键策略:1)"遮挡感知"机制通过速度抑制和检测框放大处理严重遮挡问题;2)"道路结构感知"利用语义场景先验修正轨迹。实验表明,FastTracker在MOT17/20基准测试中HOTA分别达66.4/65.7,同时发布了包含9类交通目标的FastTrac
2025-10-17 23:42:15
179
转载 解析 Flash Attention 3
FA3是FlashAttention系列的最新优化版本,针对Hopper架构(如H100)的新特性进行了深度适配。相比FA2在H100上仅35%的硬件利用率,FA3通过以下创新实现了显著性能提升:1)利用WGMMA指令实现异步GEMM计算,与softmax运算重叠;2)采用TMA硬件单元进行高效数据搬运;3)引入WarpSpecialization和Ping-Pong调度策略优化计算资源分配;4)支持FP8低精度运算并创新性地解决数据排布问题。实验显示,FA3在BF16精度下达到850TFLOPS(提升2.
2025-10-16 23:07:54
166
转载 详解 MoE 模型
摘要: 混合专家模型(MoE)通过稀疏架构实现模型规模与计算效率的解耦,成为构建万亿参数大模型的关键技术。其核心思想是动态激活部分专家网络处理输入,大幅降低计算成本。尽管面临训练复杂、负载不均衡等挑战,借助辅助损失、噪声门控等技术优化,MoE已在NLP、视觉和多模态领域展现出卓越性能(如Mixtral 8x7B以更低成本超越Llama 2 70B)。未来,随着分布式训练和边缘部署技术的成熟,MoE有望进一步推动AI模型的高效扩展与应用落地。(149字) 关键词:混合专家模型、稀疏计算、大语言模型、条件计算、
2025-10-16 22:53:19
83
转载 Top-k 和 Top-p 有什么区别
Top-k和Top-p是文本生成中的两种采样方法。Top-k固定选择概率最高的k个词随机采样,确保连贯性但可能不够灵活;Top-p则动态选择累计概率超过p的词,适配模型当前置信度,生成更自然多样。Top-k适合需要稳定输出的场景,Top-p追求创造性和流畅度。实际应用中,Top-p通常更优,可配合温度参数调节多样性。两种方法都旨在平衡生成质量与多样性,是控制大模型文本输出的核心技术。理解其原理和区别对优化生成效果至关重要。
2025-10-10 13:04:41
138
转载 DINOv3上手指南:改变视觉模型使用方式,一个模型搞定分割、检测、深度估计
DINOv3是Meta推出的突破性自监督视觉模型,其核心优势在于冻结主干网络仅需训练轻量级任务头即可实现密集预测任务SOTA。该模型在16.89亿图像上预训练,支持跨领域零微调应用,通过改进训练目标(加入iBOT掩码建模、Gramanchoring等)显著提升特征质量。提供ViT(21M-67亿参数)和ConvNeXt系列模型,支持遥感专用版本。实测显示冻结主干下,ViT-7B在ADE20K分割任务达60.7mIoU。模型输出含[CLS]token、4个寄存器token和特征图,需确保输入尺寸为16的倍数。
2025-10-10 12:39:49
409
转载 Python可视化库Plotly
本文介绍了Python数据可视化库Plotly的核心功能与应用。Plotly作为开源交互式可视化工具,支持折线图、柱状图、散点图等多种图表类型。文章详细讲解其安装方法、基础绘图流程(包括数据生成、图表创建与布局设置),并提供了柱状图、散点图和饼图的具体实现代码。最佳实践部分涵盖Pandas数据集成、图表保存为HTML文件以及自定义样式等技巧。Plotly的交互特性和跨平台支持使其成为数据分析和展示的高效工具。
2025-10-10 12:33:03
92
转载 CAN FD和CAN的技术对比
CANFD是CAN的升级版本,通过双速率机制和长数据帧实现更高带宽和效率。CANFD在仲裁段沿用经典CAN速率(最高1Mbps),数据段可切换至更高速率(最高8Mbps),并将单帧数据长度从8字节扩展到64字节。其核心改进包括:1)BRS位控制速率切换;2)DLC扩展支持0-64字节;3)增强CRC校验。CANFD物理层兼容CAN,通过控制器/收发器的双时钟域设计实现动态速率切换。虽然面临车载以太网的竞争,CANFD凭借低成本和高兼容性,仍将在中低带宽场景长期存在,形成"CAN→CANFD→以太网
2025-10-10 12:20:37
101
转载 点云数据处理技术梳理
本文总结了点云数据处理的十大关键技术及应用方向。首先介绍了点云的定义,即包含空间坐标、反射强度和颜色信息的采样点集合。随后依次阐述了点云滤波、关键点提取、特征描述、配准、分割分类、SLAM图优化、目标识别、变化检测、三维重建和数据管理等核心处理技术。其中重点介绍了ICP、NDT等经典配准算法,以及泊松重建、八叉树等重建与检测方法。文章还指出了点云处理在三维人脸识别、实时重建等领域的实际应用,为点云数据处理提供了全面的技术框架。
2025-08-18 23:37:14
360
转载 1、1.5、2.5、4、6、10平方电线可以负荷多少瓦?多少电流?
不同规格电线的负荷能力不同:1平方铜线可承受6A电流;1.5平方铜线可承受12-15A电流,负荷约3723瓦;2.5平方铜线可承受16-25A电流,220V下负荷4.4kW,380V下13kW;4平方铜线可承受42A电流,三相23kW,单相6kW;6平方铜线可负荷10kW;10平方铜线可承受70A电流,负荷约15.4kW。电线负荷能力与材质、电压和敷设环境有关。
2025-08-14 22:58:14
2882
转载 TurboReg:超高速高精度点云配准方法
武汉大学团队在ICCV2025发表论文《TurboReg》,提出革命性点云配准方法。该研究针对传统最大团搜索算法速度慢的问题,创新性地设计轻量级"TurboClique"(3-clique)和并行化PGS搜索算法。实验表明,在3DMatch等数据集上,TurboReg比现有SOTA方法快200多倍,同时将配准召回率提升至94.89%。这一突破性成果解决了点云配准中速度与精度难以兼顾的难题,为实时3D视觉应用提供了高效解决方案。
2025-08-10 22:05:19
550
转载 Diff2I2P:图像-点云配准
摘要: 清华大学与上海AI实验室团队提出Diff2I2P,一种基于扩散先验的可微分图像-点云配准框架。该方法通过控制端分数蒸馏(CSD)技术从深度条件扩散模型中提取跨模态知识,优化特征对齐,并设计可变形对应调优模块(DCT)解决传统PnP求解器的不可微问题。实验表明,Diff2I2P在7-Scenes数据集上实现7%的配准召回率提升,显著优于现有方法。代码已开源。
2025-08-10 21:43:29
278
转载 SuperMapNet:基于多模态协同与三级交互的长距离高精地图矢量化构建方法
自动驾驶高精度地图构建新突破:SuperMapNet实现长距离高精度矢量化建模 本文提出了一种名为SuperMapNet的创新网络架构,用于构建长距离、高精度的矢量化高精度地图。该系统通过多模态融合和层级耦合机制,显著提升了自动驾驶环境感知能力。主要创新包括:1)语义-几何耦合模块(SGC)有效融合相机图像语义信息和激光雷达点云几何信息;2)点-元素耦合模块(PEC)通过Point2Point、Element2Element和Point2Element三层交互实现精准建模。实验表明,SuperMapNet在
2025-08-10 21:30:13
242
转载 快速进阶LLM/AI的必读系列
本文系统梳理了AI工程化关键技术,涵盖从数据预处理到模型推理的完整流程。在预处理阶段,重点介绍了Byte-pair Encoding等分词技术和BERT等向量化方法。核心架构方面,详细分析了Transformer及其变体(如FlashAttention、MoE专家系统)、RLHF强化学习框架和思维链推理技术。优化方案包括1-bit量化、推测解码等前沿方法,以及模型蒸馏和状态空间模型等轻量化技术。此外还探讨了多模态处理(图像/视频转换器)、竞赛模型优化和行业应用案例(如Meta测试改进、Netflix推荐系统
2025-08-09 19:08:03
93
转载 GLOMAP论文阅读
【摘要】本文提出了一种新型全局式运动恢复结构(SfM)系统GLOMAP,其核心创新在于将相机定位与点位置估计联合优化,而非传统地分离平移平均与三角测量步骤。实验表明,该系统在ETH3D、LaMAR等多个数据集上,其重建精度与鲁棒性达到或超越当前最先进的增量式COLMAP系统,同时运行速度快1-2个数量级。GLOMAP尤其擅长处理未知相机内参和共线运动场景,通过归一化方向差异的误差度量,有效克服了传统平移平均的不适定性问题。该系统为大规模三维重建提供了高效可靠的解决方案,代码已开源。
2025-07-08 23:25:14
206
1
原创 Python库zipfile破解zip文件解压密码
使用的核心模块是Python标准库中的zipfile模块。这个模块可以实现zip文件的各种功能,具体可以查看官方参考文档。这里的暴力破解的意思是对密码可能序列中的值一个一个进行密码尝试,这对人来说是很难的,可是对计算机而言并不难。有时候我们下载的zip文件需要密码解压而我们不知道,需要付费才知道。所有这里主要介绍两种暴力破解的密码:纯数字密码和英文数字组合密码。
2025-06-23 19:33:32
6044
转载 不重视内部升迁,过分依赖空降高管的后果
这就导致,明明自己就是某个业务体系或项目中的Leader、项目经理、需求方,处于“甲方”地位、而“乙方”们(协作者、支持者,也包括老板/资历比自己深的同事、客户)做什么都应该围绕着该“甲方”提出的需求转,”,但哪怕“乙方”们实际配合的意愿度很高,由于由于信息不对称,如果“甲方”不主动提他们这个时候在某个时期上需要帮助/支持,乙方就毫不知情,没怎么处理。大家都知道人无完人,用人是要扬长避短,可有些单位的头儿,用不好内部的人,老觉得内部的人有各种不足,老希望有外部高人来公司补上,尤其看上其他公司的一些高管。
2025-06-23 03:04:20
199
转载 LiftFeat:3D几何感知的局部特征匹配新颖网络 (ICRA‘25)
LiftFeat是一种创新的轻量级网络,旨在通过融合2D和3D信息来增强极端条件下的局部特征匹配。该方法利用深度图提取的表面法线信息,结合2D描述符,通过3D几何感知特征增强模块(3D-GFL)提升特征区分能力。LiftFeat网络架构包括共享特征编码模块和多任务头,用于预测关键点、描述符和表面法线。训练过程中,使用单目深度估计模型生成表面法线标签,并通过关键点预测、表面法线估计和描述符损失进行监督。实验结果表明,LiftFeat在相对位姿估计、单应性估计和视觉定位等任务中表现出色,尤其在光照剧烈变化、低纹
2025-05-17 18:19:35
348
转载 Prompt基础三维检测器 (PF3Det):结合基础模型与Prompt工程,实现 LiDAR 高效融合及三维检测最优结果
本文提出了一种名为Prompt基础三维检测器(PF3Det)的新型多模态三维目标检测方法,旨在解决自动驾驶领域中LiDAR点云与相机图像融合的挑战。PF3Det通过结合基础模型编码器和软Prompt技术,有效融合了LiDAR和相机的特征,提升了检测性能。实验结果表明,在nuScenes数据集上,PF3Det在有限训练数据的情况下,显著提高了NDS和mAP指标,展示了其在三维检测中的高效性。该方法通过引入多模态基础特征和软Prompt,成功解决了模态融合中的领域差异问题,并为数据有限情况下的三维目标检测提供了
2025-05-17 15:45:24
229
转载 RDD: Robust Feature Detector and Descriptor using Deformable Transformer
本文介绍了一种名为RDD的鲁棒特征检测与描述框架,该框架通过可变形Transformer技术,在三维计算机视觉任务中实现了高效的关键点检测和描述符提取。RDD采用双分支架构,分别使用全卷积网络和基于Transformer的结构来处理关键点检测和描述符提取,有效解决了传统方法在大基线相机运动、显著光照变化和尺度差异等复杂条件下的不足。通过可变形注意力机制,RDD能够选择性关注关键位置,降低计算复杂度,同时保持几何不变性和全局上下文的学习能力。实验结果表明,RDD在多个标准基准测试上均优于当前最先进的方法,并在
2025-05-16 14:44:24
354
原创 VSCode插件Python Image Preview使用笔记
Python Image Preview支持numpy pillow opencv-python matplotlib seaborn plotly imageio skimage tensorflow pytorch等library的可显示为图像的变量。这里以matplotlib官方的一个热力图例程为例,来展示如何使用Python Image Preview插件在远程调试时查看绘制的实验图像。
2025-05-01 11:41:36
1690
原创 Grounding DINO
图1。(a) 封闭集物体检测需要模型检测预定义类别的对象。(b) 以前的工作将模型零样本传输到新类别以实现模型泛化。我们建议将指称表达式理解(REC)作为对具有属性的新对象的模型泛化的另一种评估。(c) 我们通过组合Grounding DINO和Stable Diffusion[42]呈现图像编辑应用程序。以彩色查看效果最佳。本文提出了一种开放集物体检测器,称为基于定位的DINO,通过将基于Transformer的检测器DINO与定位预训练相结合,可以检测任意物体,如人工输入的类别名称或指称表达等。
2025-04-30 23:05:54
1529
转载 车道拓扑推理演进:从程序化建模到车载传感器
车道拓扑推理技术在高精(HD)建图和自动驾驶应用中发挥着至关重要的作用。虽然近年来在该领域中取得了重大进展,但是很少有文献综合概述这些工作。本项调研系统性地回顾了车道拓扑推理方法的演变和现状,将其分为三种主要范式:基于程序化建模的方法、基于航拍图像的方法和基于车载传感器的方法。本文分析了从早期基于规则的方法到现代基于学习的解决方案的进展,这些基于学习的解决方案利用了transformers、图神经网络(GNNs)和其它深度学习架构。
2025-04-29 18:04:36
198
转载 LiDPM:重新思考点云补全的Point Diffusion
LiDPM在IoU 0.2m(44.4 vs. 40.7)、IoU 0.1m(27.6 vs. 24.8)等指标上优于LiDiff,且生成点云的结构更清晰(图4)。将物体级扩散模型(如PVD)与场景级模型统一,证明标准DDPM框架只需适当调整初始条件(如从中间噪声步骤开始扩散),即可扩展到大规模场景,无需定制化设计。:从中间时间步 (如300步)开始扩散,初始点云由稀疏点云的复制倍叠加噪声生成,平衡了结构保真度与生成能力。:通过调整初始形状(如直线、转弯),LiDPM可生成多样化的合成场景(图5)。
2025-04-29 16:50:59
644
转载 面向大规模户外场景的多源异构点云精细配准方法
为全面表征大规模户外场景的三维信息,多平台、多传感器、多时相的激光点云采集与配准技术快速发展。然而受户外环境复杂性及观测平台硬件性能差异影响,空间坐标系不一致的多源异构点云在精确高效配准方面面临巨大挑战,包括显著噪声干扰、遮挡、数据缺失及几何异构性等问题。本文提出基于全连接图和热传导模型的异构点云精细配准方法:首先采用高斯概率分布框架对分类特征基元建立初始对应关系;继而通过低级语义关联与刚性变换相容性检测快速剔除异常值导致的误匹配;
2025-04-29 16:32:43
285
转载 FACT:多项式错位分类用于点云配准
我们提出FACT方法,用于预测已配准激光雷达点云对的配准质量(即配准误差)。该方法可应用于大规模自动配准3D模型的质量保证。FACT从配准点云对中提取局部特征,通过基于点变换器的网络处理这些特征以预测失准类别。我们将前人研究的二元配准误差分类推广为多项式失准分类,为此设计了结合交叉熵和Wasserstein距离的自定义分类回归损失函数,实验证明其性能优于直接回归和先前的二元分类。
2025-04-29 16:29:42
108
转载 EdgeRegNet:基于边缘特征的图像与激光雷达点云多模态配准网络
跨模态数据配准长期以来是计算机视觉领域的关键任务,在自动驾驶与机器人技术中具有广泛应用。准确鲁棒的配准方法对于对齐不同模态数据至关重要,构成多模态传感器数据融合的基础,能提升感知系统的准确性与可靠性。相机采集的2D图像与激光雷达(LiDAR)采集的3D点云间的配准任务通常被视为视觉位姿估计问题。现有方法通过利用不同模态的高维特征相似性识别像素-点对应关系,再采用最小二乘法等位姿估计技术。但由于计算限制,现有方案常需对原始点云和图像数据进行降采样,不可避免地导致精度损失。
2025-04-29 16:24:44
306
转载 大模型核心技术:微调、推理与优化指南
大语言模型(LLM)是非常庞大的深度学习模型,它们在大量数据上进行预训练。其底层的Transformer是一组神经网络,由具有自注意力能力的编码器和解码器组成。编码器和解码器从文本序列中提取含义,并理解其中单词和短语之间的关系。Transformer神经网络架构允许使用非常大的模型,这些模型通常包含数千亿个参数。如此大规模的模型可以摄取大量数据,这些数据通常来自互联网,也可以来自如包含超过500亿个网页的Common Crawl,以及约有5700万页面的维基百科等来源。
2025-04-28 17:13:42
444
转载 世界模型概念起源、常见误解、和自动驾驶的关系
在这个过程中,我们会根据真实世界对推测规律的反馈,来增加、删除和调整我们脑海中的基本元素,有些需要新增或者新发明(很多有用的数学概念和工具是纯粹的人类发明),有些需要抛弃(比如以太,比如燃素),有些基本元素需要调整,比如虚数概念起先认为是imaging想象的,后来发现其实是数平面上的二维坐标,完全是真实而非想象的。所谓4D 世界模型,意味着不仅要生成逼真的三维空间场景,还要准确地把握和生成时间维度上的变化,也就是三维物体的时间循序和时间速度,包括物体的运动、场景的动态演化等等。具体步骤如下两步:。
2025-04-28 15:06:24
290
原创 具身智能中 VLA 主流方案全解析:技术总结与未来展望
本文详细总结了具身智能中 VLA 的主流方案,包括基于经典 Transformer 结构、预训练 LLM/VLM、扩散模型、LLM + 扩散模型、视频生成 + 逆运动学以及不同类型的端到端方案。通过对各方案的开源项目和核心思想的介绍,对比了它们在模型架构、动作类型、训练目标等方面的特点,得出了相应的结论共识。同时,探讨了 VLA 面临的数据稀缺、运动规划、实时响应、多模态融合、泛化能力、长时域任务执行、基础模型、多智能体协作以及安全伦理等挑战,并展望了未来的发展方向。
2025-04-28 11:57:09
1783
原创 child process terminated with code错误码
负数表示子进程被操作系统信号终止,绝对值对应信号编号。:命令未找到(Shell 环境中常见)。终止(通常是内存访问错误,如段错误)。:命令未找到(如拼写错误的命令)。:通用错误(如脚本语法错误)。
2025-04-27 13:32:28
472
转载 智驾技术范式变迁:从规则驱动到知识驱动
EMMA基于多模态大语言模型(MLLM)构建,通过将所有非传感器输入(如导航指令和车辆状态)和输出(如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练的大语言模型中的世界知识,在实现端到端运动规划基础上,通过混合训练,还将EMMA构建为一个通才模型,实现3D 世界感知,识别周围物体/道路图/交通条件等功能。浮夸与务实交织的行业生态,使得技术真伪的辨识愈发困难。需要强调的是,行业内常说的两段式端到端(即感知模型化+预测规划模型化,但两个模型之间的接口仍然采用人为定义),不属于本文讨论的端到端系统。
2025-04-27 13:02:21
440
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅