soulmode-优快云博客

翻译【论文翻译】NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation

本文提出了一种结合经典方法与学习方法的视觉导航新框架NaviDiffusor。该方法通过条件扩散模型学习路径规划先验，并在推理阶段引入可微代价函数的梯度引导，生成满足场景约束的多模态路径。实验表明，该方法在室内外场景中具有优异的零样本迁移能力，相比基准方法显著提高了成功率并减少碰撞。主要贡献包括：1）将经典代价设计融入扩散模型推理过程；2）提出路径选择策略优化路径稳定性；3）在多样化场景中验证了方法的有效性。该框架无需重新训练即可适应新场景，为视觉导航提供了可靠解决方案。

2025-12-15 13:24:21 7

翻译【论文翻译】EGS-SLAM: RGB-D Gaussian Splatting SLAM With EventsEGS-SLAM：结合事件的 RGB-D 高斯泼溅SLAM

EGS-SLAM提出了一种新颖的RGB-D高斯泼溅SLAM框架，通过融合事件数据解决现有系统在运动模糊下的性能退化问题。该方法显式建模相机曝光期间的连续轨迹，结合可学习相机响应函数对齐事件与图像的动态范围，并引入无事件损失抑制重建伪影。实验表明，EGS-SLAM在模糊环境下显著提升了轨迹精度和3D重建质量，优于现有GS-SLAM系统。该工作首次实现了事件辅助的在线高斯泼溅SLAM，为动态场景下的高精度定位与逼真重建提供了新思路。

2025-12-04 16:39:40 18

翻译【论文翻译】iFEM2.0: Dense 3-D Contact Force Field Reconstruction and Assessment for Vision-Based Tactile

本文提出iFEM2.0方法，用于基于视觉触觉传感器的稠密三维接触力场重建。该方法通过多层逆有限元框架，结合网格约束和岭正则化，有效解决传统方法存在的噪声敏感和病态问题。研究系统分析了传感器本构模型、单元参数等影响因素，并通过仿真和实验校准确定最优参数组合。针对三维接触力分布评估缺乏标准的问题，建立了涵盖准确性、保真度和抗噪性的综合评估基准。实验表明，iFEM2.0在仿真和实际测试中均优于现有方法，为机器人灵巧操作提供了更精确的三维力感知能力。

2025-10-28 15:38:21 160

翻译【论文翻译】VLMs-Guided Representation Distillation for Efficient Vision-Based Reinforcement Learning

本文提出了一种新颖的视觉语言模型（VLM）引导表征蒸馏方法（DGC），用于提升视觉强化学习（VRL）的样本效率和策略性能。针对现有VRL方法在数据样本有限和缺乏语义约束方面的不足，DGC通过从VLM中蒸馏视觉理解能力，结合自监督学习构建紧凑的视觉编码器。具体而言，该方法设计了提示-推理管道，将历史观测和动作转化为监督信号，指导视觉编码器学习语义表征，同时利用自监督任务优化蒸馏过程。实验表明，在复杂驾驶任务Carla基准上，DGC显著优于传统VRL和直接使用VLM决策的方法，证明了其高效的表征学习能力和策略优

2025-09-04 22:26:21 149

翻译【论文翻译】Environmental sensing in autonomous construction robots: Applicable technologies and systems

本文综述了自主施工机器人环境感知技术的研究进展，重点分析了视觉传感、定位建图和自主导航三大核心系统。通过科学计量分析和批判性综述方法，评估了激光雷达、雷达、摄像头等多种传感器在动态施工环境中的适用性，比较了不同算法的优缺点。研究发现当前研究存在技术孤立、动态环境适应性不足等问题，建议未来应加强多传感器融合、提高实时处理能力，并针对施工场景特点优化算法设计，为开发适应复杂施工环境的全自主机器人系统提供理论支持。

2025-08-01 13:35:10 112

翻译【论文翻译】OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving—用于端到端自动驾驶的开源多模态模型

摘要 OpenEMMA提出了一种基于开源多模态大语言模型（MLLMs）的端到端自动驾驶框架，通过思维链推理提升复杂场景下的决策能力。该方法整合视觉输入与历史驾驶状态，分解轨迹规划为可解释的速度和曲率预测，并引入微调YOLO模型增强目标检测。实验在nuScenes数据集上验证了框架的有效性，相比零样本基线显著降低轨迹误差（如LLaVA-1.6模型降低30%），但未微调的MLLMs性能仍受限。开源代码旨在推动社区协作，解决自动驾驶泛化与资源依赖问题。

2025-07-08 12:55:11 192

翻译【论文翻译】LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving —用于自动驾驶的轻量级端到端多模态模型

本文介绍了LightEMMA，一个用于评估视觉-语言模型（VLM）在自动驾驶中性能的轻量级端到端框架。我们使用该框架，通过思维链提示策略，在nuScenes数据集上对12个主流VLM进行了系统性评估。实验结果表明，尽管VLM展现出强大的场景理解能力，但在推理速度、成本和预测准确性方面仍存在显著局限。其预测精度甚至不优于简单的基线模型，且在复杂场景下决策不稳定，存在安全隐患。研究强调，未来需要开发针对驾驶领域的专用模型或进行领域微调，以提升VLM在自动驾驶任务中的实用性和可靠性。

2025-07-07 12:36:21 119

翻译【论文翻译】Embodied navigation-具身导航

具身导航是一种新兴的导航范式，通过物联网（IoT）和人工智能（AI）技术，使移动物体能够与物理世界交互，获取局部地图、定位物体并优化导航路线。本文系统综述了具身导航的研究进展，涵盖感知、导航、效率优化及其赋能的任务。感知部分探讨了几何感知和语义理解，导航部分分析了基于几何和学习增强的方法，效率优化部分讨论了延迟、能效和鲁棒性改进策略。具身导航赋能的任务包括自动驾驶、辅助机器人、仿生应用等。尽管具身导航前景广阔，但仍面临真实世界适用性、多智能体协作、仿生神经架构等挑战，需进一步研究以推动通用自主系统的发展。

2025-05-09 15:01:51 425

翻译【论文翻译】 OmniTracker: Unifying Visual Object Tracking by Tracking-With-Detection

视觉对象跟踪 (VOT) 旨在估计视频序列中目标对象的位置，这是一项重要的视觉任务，在现实世界中有多种应用。根据目标对象的初始状态是由第一帧中提供的标注指定还是由类别指定，VOT 可分为实例跟踪（例如，SOT 和 VOS）和类别跟踪（例如，MOT、MOTS 和 VIS）任务。不同的定义导致了这两种任务类型的解决方案各不相同，从而造成了冗余的训练开销和参数开销。

2025-05-08 22:50:13 364

翻译【论文翻译】π0: A Vision-Language-Action Flow Model for General Robot Control-一种用于通用机器人控制的视觉-语言-动作流模型（二）

我们的实验评估包括直接评估实验（将我们的基础（预训练）模型与通过直接提示的其他模型设计进行比较），以及详细的微调实验（在具挑战性的下游任务上评估我们的模型，并将其与文献中提出的用于灵巧操作的其他方法进行比较）。我们研究以下研究问题：在我们第一组实验中，我们在完整的混合数据集上进行预训练后，不进行任何后训练，评估模型，以考察我们的基础模型执行各种任务的能力。我们与文献中的其他机器人基础模型进行比较：包括VLA模型和在相同预训练混合数据集上从头开始训练的较小模型。我们在以下任务上进行评估（如图6所示），每个任务

2025-05-07 18:21:12 285

翻译【论文翻译】π0: A Vision-Language-Action Flow Model for General Robot Control-一种用于通用机器人控制的视觉-语言-动作流模型（一）

机器人学习具有巨大潜力，有望释放灵活、通用和灵巧机器人系统的全部潜能，并解决人工智能领域一些最深层次的问题。然而，将机器人学习提升到有效现实世界系统所需的通用性水平，在数据、泛化性和鲁棒性方面面临着主要障碍。在本文中，我们讨论了通用机器人策略（即机器人基础模型）如何能够应对这些挑战，以及我们如何能够为复杂且高度灵巧的任务设计有效的通用机器人策略。我们提出了一种新颖的流匹配架构，该架构构建于预训练的视觉语言模型（VLM）之上，以继承互联网规模的语义知识。

2025-05-06 23:12:06 343

翻译【论文翻译】An Efficient Solution to Non-Minimal Case Essential Matrix Estimation（二）

（分支点[36]）：设。

2025-01-17 20:00:00 141

翻译【论文翻译】An Efficient Solution to Non-Minimal Case Essential Matrix Estimation（一）

—在两幅校准图像之间找到相对姿态是计算机视觉中的一个基本任务。给定五个点对应关系，经典的五点法可以高效地计算本质矩阵。对于。

2025-01-17 19:59:28 178

翻译【论文翻译】OpenCalib: A Multi-sensor Calibration Toolbox for Autonomous Driving

准确的传感器校准是自主车辆多传感器感知和定位系统的前提条件。传感器的内参校准旨在获得传感器内部的映射关系，而外参校准则是将两个或多个传感器转化为统一的空间坐标系统。大多数传感器在安装后需要进行校准，以确保传感器测量的准确性。为此，我们推出了OpenCalib，一个包含丰富的多种传感器校准方法的工具箱。OpenCalib覆盖了不同应用场景下的手动校准工具、自动校准工具、工厂校准工具和在线校准工具。同时，为了评估校准精度并随后提高校准算法的准确性，我们发布了相应的基准数据集。

2024-09-28 18:18:07 774

翻译【论文翻译】OpenCalib: A multi-sensor calibration toolbox for autonomous driving

准确的传感器校准是自主车辆多传感器感知的先决条件。尽管有许多与传感器校准相关的开源项目，但大多数是为特定传感器或应用场景设计的。为此，我们提出了OpenCalib，一个具有丰富传感器校准方法的工具箱，专为自主驾驶车辆设计。OpenCalib覆盖了最常用的传感器，包括LiDAR、相机、IMU、雷达以及不同的应用场景，包括基于道路场景的手动和自动校准、生产线上的校准以及在线校准。据我们所知，OpenCalib是首个专门为自主车辆设计的完整开源校准工具箱。

2024-09-28 16:45:10 392

翻译【二】Deep learning and multi-modal fusion for real-time multi-object tracking

为了克服这一限制，文献[133]的作者提出了一种结合多通道特征和可学习图匹配的跟踪算法，基于并行图模型处理帧内目标的外观特征，并更高效地处理轨迹之间的复杂关系。文献[141]的作者提出了一种中间多模态融合方法。此外，文献[30]的作者提出了一种基于Siamese网络的多模态、多层次融合模型，该模型专门用于RGB-T目标跟踪中的特征或像素级融合，显著提高了跟踪性能。本节详细介绍了多模态融合的几种主要方法，包括多模态融合的层次分析、多模态融合技术的分类及其在MOT算法中的应用，以及多模态数据类别及其融合方法。

2024-09-13 16:10:39 486

翻译【论文翻】Deep learning and multi-modal fusion for real-time multi-object tracking

实时多目标跟踪（MOT）是一项复杂的任务，涉及到检测和跟踪多个目标。目标被检测到后，会被分配标记，并实时跟踪其轨迹。科学界对在智慧城市背景下利用MOT技术的可能性充满了兴趣。其主要关注领域包括智能交通、车辆和行人检测、人员监控以及公共安全。近年来，深度学习技术的发展使得有效应对实时MOT任务的挑战并提高跟踪性能成为可能。智慧交通应用中的环境感知在很大程度上依赖于传感器数据融合。在交通场景中，一个深思熟虑的方法是利用传感器和摄像头的组合来检测和跟踪目标，同时有效地收集有价值的数据。

2024-09-13 15:38:21 793

翻译【论文翻译】A measurement fusion algorithm of sensors angle association for multi-target tracking-第二部分

不同类型传感器之间的多目标跟踪在充分利用各种类型的测量数据方面面临巨大挑战。为此，本文提出了一种基于角度关联（AA）的单个主动传感器与多个被动传感器（SAMPS）测量融合算法，称为SAMPS-AA算法，用于多目标跟踪。首先，为了缩小关联范围，提出了一种有效的筛选算法，用于提取两种传感器的公共角度测量数据。然后，通过基于角度测量的统计方法，开发了一种错误关联组的排除策略。随后，通过基于最小二乘法（LS）的角度关联，获得融合测量数据的坐标。最后，利用主动传感器的测量特性，提出了另一种错误测量点的排除策略。实验结

2024-09-07 12:45:39 308 1

翻译【论文翻译】A measurement fusion algorithm of sensors angle association for multi-target tracking-第一部分

不同类型传感器之间的多目标跟踪在充分利用各种类型的测量数据方面面临巨大挑战。为此，本文提出了一种基于角度关联（AA）的单个主动传感器与多个被动传感器（SAMPS）测量融合算法，称为SAMPS-AA算法，用于多目标跟踪。首先，为了缩小关联范围，提出了一种有效的筛选算法，用于提取两种传感器的公共角度测量数据。然后，通过基于角度测量的统计方法，开发了一种错误关联组的排除策略。随后，通过基于最小二乘法（LS）的角度关联，获得融合测量数据的坐标。最后，利用主动传感器的测量特性，提出了另一种错误测量点的排除策略。实验结

2024-08-31 14:18:10 262

翻译【论文翻译】Multi-modal Visual Tracking Based on Textual Generation——多模态基于文本生成的视觉跟踪

由于其广泛的潜在应用，多模态跟踪引起了极大的关注。现有的多模态跟踪方法通常在RGB跟踪的基础上融合不同视觉模态的数据。然而，仅仅关注视觉模态是不够的，因为跟踪数据的匮乏。受大模型最近成功的启发，本文提出了一种基于文本生成的多模态视觉跟踪（MVTTG）方法，以解决缺乏语言信息和忽略目标与搜索区域之间语义关系的视觉跟踪局限性。为此，我们利用大模型生成图像描述，使用这些描述提供关于目标外观和运动的补充信息。

2024-07-26 18:19:27 532

翻译【SIFT介绍】Scale-Invariant Feature Transform——尺度不变特征变换（四）

许多实际应用需要在一张或多张图像中定位参考位置，例如图像对齐、去除畸变、物体跟踪、3D重建等。我们已经看到，角点可以相当可靠地定位，并且不依赖于方向。然而，典型的角点检测器仅提供每个候选点的位置和强度，它们不提供任何有关其特征或“身份”的信息，这些信息可以用于匹配。另一个限制是大多数角点检测器仅在特定尺度或分辨率下工作，因为它们基于一组固定的滤波器。本章介绍了局部特征检测的尺度不变特征变换（SIFT）技术，该技术最初由D. Lowe [152]提出，并自此成为成像行业的“主力”方法。

2024-07-12 15:13:29 242

翻译【SIFT介绍】Scale-Invariant Feature Transform——尺度不变特征变换（三）