山海里啊有星辰-优快云博客

原创 VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation

理解人类如何利用语义知识在陌生环境中导航，并决定接下来探索的位置，对于开发具有类人搜索行为的机器人至关重要。我们提出了一种零样本导航方法——视觉-语言边界地图（VLFM），该方法受人类推理过程的启发，旨在引导机器人从未见过的语义目标导航到新环境中。VLFM 利用深度观测构建占用地图以识别边界，并利用 RGB 观测和预训练的视觉-语言模型生成基于语言的价值地图。然后，VLFM 使用该地图来确定最有希望探索的边界，以找到给定目标对象类别的实例。

2025-02-05 13:49:10 1695

原创基于语义-拓扑-度量表征引导的大语言模型推理的空中视觉语言导航

空中视觉语言导航（VLN）是一项新兴任务，它使无人机能够通过自然语言指令和视觉线索在户外环境中导航。由于户外空中场景中复杂的空间关系，这项任务仍然具有挑战性。本文提出了一种端到端的零样本框架，用于空中VLN任务，其中引入了大语言模型（LLM）作为动作预测的代理。具体而言，我们开发了一种新颖的语义-拓扑-度量表征（STMR），以增强LLM的空间推理能力。这是通过提取并投影与指令相关的地标语义掩码到一个包含周围地标位置信息的俯视地图中实现的。

2025-01-26 15:16:23 1793

原创 Video-RAG：一种将视频RAG新框架

检索增强生成（RAG）是一种强大的策略，通过检索与查询相关的外部知识并将其整合到生成过程中，以解决基础模型生成事实性错误输出的问题。然而，现有的RAG方法主要集中于文本信息，尽管最近的一些进展开始考虑图像，但它们大多忽略了视频这一丰富的信息来源。视频能够比任何其他模态更有效地表示事件、过程和上下文细节。尽管一些最近的研究探讨了在生成过程中整合视频内容，但它们要么预先定义与查询相关的视频而不根据查询检索它们，要么将视频转换为文本描述而没有利用其多模态丰富性。

2025-01-20 14:21:50 1801 1

原创 MECD+: 视频推理中事件级因果图推理--VLM长视频因果推理

视频因果推理旨在从因果角度对视频内容进行高层次的理解。然而，目前的研究存在局限性，主要表现为以问答范式执行，关注包含孤立事件和基本因果关系的简短视频片段，缺乏对包含多个相互关联事件视频的全面、结构化因果分析。为了填补这一空白，我们提出了一项新任务和数据集，即多事件因果发现 (MECD)。该任务旨在揭示分布在长时间视频中事件之间的因果关系。给定事件的视觉片段和文本描述，MECD 识别这些事件之间的因果关联，从而推导出一个全面且结构化的事件级视频因果图，解释结果事件为何以及如何发生。

2025-01-20 11:07:16 1597

原创长时视觉语言导航的突破：NavGen 数据平台与 LH-VLN 模型解析

(a) 机器人分布。(b) 任务长度分布。© 任务指令和步骤长度的分布。我们将 2、3、4 个子任务分别视为短任务、中任务和长任务。

2025-01-17 18:11:42 1111

原创分享一个OccupancyNet的入门课程，讲的一般不用付费

链接: https://pan.baidu.com/s/1oEvpx4JODd8gdN_TmIXTkw?pwd=aipc 提取码: aipc 复制这段内容后打开百度网盘手机App，操作更方便哦关键词：OCC 、自动驾驶、BEV、OccupancyNetwork、感知

2024-10-10 14:37:47 209

原创 OOP设计原则、单例模式、工厂模式

单例模式和工厂模式都是创建型模式这些设计模式提供了一种在创建对象的同时隐藏创建逻辑的方式，而不是使用 new 运算符直接实例化对象。这使得程序在判断针对某个给定实例需要创建哪些对象时更加灵活。

2023-02-21 15:51:49 423

原创 LIO-SAM超级详细源码流程图

lio-sam源码剖析的概述篇

2022-12-08 16:25:09 2019

原创 ScanContext算法流程-基于激光雷达的回环检测（配合论文看）

ScanContest基于激光雷达的回环检测方法

2022-11-28 21:47:17 1109

原创透彻理解SLAM中的非线性最小二乘问题

迭代法,就是从一个初始值出发,通过不断的更新当前的优化变量,使目标函数不断下降,达到一定阈值的时候,可以用当前的优化变量大小近似代替最优的变量值,这样就问题从对F(x)求导,转换到了不断寻找dx使得F(x+dx) < F(x)这样一个过程了。对于第一个问题,不同的问题有不同的解决方法,会有一些估计值作为初始值,一些算法对初始值比敏感,SLAM算法的配准时,就涉及到初始值的问题,目前还未过于关注,后面补充.上式中，x为状态量，f(x)为关于x的残差函数，我们的目的是找到合适的x*使得F(x*)最小；

2022-10-21 16:01:45 1379

原创 Apollo虚拟仿真大赛-左转待转赛题解析（原创）

Apollo虚拟仿真大赛赛题解析、左转待转

2022-10-17 15:10:50 3646 3

原创 LeGO-LOAM论文阅读：相比于LOAM差别在哪里？

LeGO-LOAM与LOAM的主要差别

2022-09-01 11:34:20 404

原创 LOAM学习笔记-scanRegistration&laserOdometry&laserMapping

LOAM的代码流程及细节分析，持续更新中... 后面还会更新实践及精度评价等

2022-08-26 10:13:13 228

原创 PCL显示自定义点云类型报错 undefined reference to `pcl::visualization::PointCloudGeometryHandlerXYZ＜MyPointType＞

undefined reference to `pcl::visualization::PointCloudGeometryHandlerXYZ<PointXYZIL>::PointCloudGeometryHandlerXYZ(boost::shared_ptr<pcl::PointCloud<PointXYZIL> const> const&)'

2022-03-29 14:41:15 2457 2

原创【以例为引】gtsam简单入门（上）--理论和认识

gtsam的入门知识，及其使用

2022-03-24 22:37:31 5262 1

原创 realsenseD400系列使用realense-ros出现“symbol lookup error ... undefined symbol: _ZN2cv3M “解决方法(这个问题在我这里终结)

symbol lookup error: /home/khz/ROS/catkin_ws/devel/lib//librealsense2_camera.so: undefined symbol: _ZN2cv3MatC1EiiiRKNS_7Scalar_IdEE

2022-02-17 10:41:20 9635 22

原创【OpenCV（C++）快速入门】--下篇--OpenCV中的颜色、形状、人脸和轮廓检测

【专栏介绍】因为专业需要用到OpenCV来处理图像数据，所以需要学习，搜索了网上的相关资料，整体知识比较零散，花费了较多时间，所以才萌生了将学习过程整理成专栏的形式，希望能帮到后来的人，也方便自己复习。如有错漏欢迎评论或者私信指出，我定当及时更正。本系列共有上中下三篇，后面有空会再做个小项目，并放出来。上篇：https://blog.youkuaiyun.com/weixin_45703465/article/details/122583084https://blog.youkuaiyun.com/weixin_45703

2022-01-19 19:58:55 7753 6

weixin_45703465的博客