- 博客(20)
- 资源 (1)
- 收藏
- 关注
原创 VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation
理解人类如何利用语义知识在陌生环境中导航,并决定接下来探索的位置,对于开发具有类人搜索行为的机器人至关重要。我们提出了一种零样本导航方法——视觉-语言边界地图(VLFM),该方法受人类推理过程的启发,旨在引导机器人从未见过的语义目标导航到新环境中。VLFM 利用深度观测构建占用地图以识别边界,并利用 RGB 观测和预训练的视觉-语言模型生成基于语言的价值地图。然后,VLFM 使用该地图来确定最有希望探索的边界,以找到给定目标对象类别的实例。
2025-02-05 13:49:10
1088
原创 基于语义-拓扑-度量表征引导的大语言模型推理的空中视觉语言导航
空中视觉语言导航(VLN)是一项新兴任务,它使无人机能够通过自然语言指令和视觉线索在户外环境中导航。由于户外空中场景中复杂的空间关系,这项任务仍然具有挑战性。本文提出了一种端到端的零样本框架,用于空中VLN任务,其中引入了大语言模型(LLM)作为动作预测的代理。具体而言,我们开发了一种新颖的语义-拓扑-度量表征(STMR),以增强LLM的空间推理能力。这是通过提取并投影与指令相关的地标语义掩码到一个包含周围地标位置信息的俯视地图中实现的。
2025-01-26 15:16:23
1368
原创 Video-RAG:一种将视频RAG新框架
检索增强生成(RAG)是一种强大的策略,通过检索与查询相关的外部知识并将其整合到生成过程中,以解决基础模型生成事实性错误输出的问题。然而,现有的RAG方法主要集中于文本信息,尽管最近的一些进展开始考虑图像,但它们大多忽略了视频这一丰富的信息来源。视频能够比任何其他模态更有效地表示事件、过程和上下文细节。尽管一些最近的研究探讨了在生成过程中整合视频内容,但它们要么预先定义与查询相关的视频而不根据查询检索它们,要么将视频转换为文本描述而没有利用其多模态丰富性。
2025-01-20 14:21:50
1080
原创 MECD+: 视频推理中事件级因果图推理--VLM长视频因果推理
视频因果推理旨在从因果角度对视频内容进行高层次的理解。然而,目前的研究存在局限性,主要表现为以问答范式执行,关注包含孤立事件和基本因果关系的简短视频片段,缺乏对包含多个相互关联事件视频的全面、结构化因果分析。为了填补这一空白,我们提出了一项新任务和数据集,即多事件因果发现 (MECD)。该任务旨在揭示分布在长时间视频中事件之间的因果关系。给定事件的视觉片段和文本描述,MECD 识别这些事件之间的因果关联,从而推导出一个全面且结构化的事件级视频因果图,解释结果事件为何以及如何发生。
2025-01-20 11:07:16
1148
原创 长时视觉语言导航的突破:NavGen 数据平台与 LH-VLN 模型解析
(a) 机器人分布。(b) 任务长度分布。© 任务指令和步骤长度的分布。我们将 2、3、4 个子任务分别视为短任务、中任务和长任务。
2025-01-17 18:11:42
626
原创 分享一个OccupancyNet的入门课程,讲的一般不用付费
链接: https://pan.baidu.com/s/1oEvpx4JODd8gdN_TmIXTkw?pwd=aipc 提取码: aipc 复制这段内容后打开百度网盘手机App,操作更方便哦关键词:OCC 、自动驾驶、BEV、OccupancyNetwork、感知
2024-10-10 14:37:47
132
原创 OOP设计原则、单例模式、工厂模式
单例模式和工厂模式都是创建型模式这些设计模式提供了一种在创建对象的同时隐藏创建逻辑的方式,而不是使用 new 运算符直接实例化对象。这使得程序在判断针对某个给定实例需要创建哪些对象时更加灵活。
2023-02-21 15:51:49
327
原创 透彻理解SLAM中的非线性最小二乘问题
迭代法,就是从一个初始值出发,通过不断的更新当前的优化变量,使目标函数不断下降,达到一定阈值的时候,可以用当前的优化变量大小近似代替最优的变量值,这样就问题从对F(x)求导,转换到了不断寻找dx使得F(x+dx) < F(x)这样一个过程了。对于第一个问题,不同的问题有不同的解决方法,会有一些估计值作为初始值,一些算法对初始值比敏感,SLAM算法的配准时,就涉及到初始值的问题,目前还未过于关注,后面补充.上式中,x为状态量,f(x)为关于x的残差函数,我们的目的是找到合适的x*使得F(x*)最小;
2022-10-21 16:01:45
1272
原创 LOAM学习笔记-scanRegistration&laserOdometry&laserMapping
LOAM的代码流程及细节分析,持续更新中... 后面还会更新实践及精度评价等
2022-08-26 10:13:13
187
原创 PCL显示自定义点云类型报错 undefined reference to `pcl::visualization::PointCloudGeometryHandlerXYZ<MyPointType>
undefined reference to `pcl::visualization::PointCloudGeometryHandlerXYZ<PointXYZIL>::PointCloudGeometryHandlerXYZ(boost::shared_ptr<pcl::PointCloud<PointXYZIL> const> const&)'
2022-03-29 14:41:15
2304
2
原创 realsenseD400系列使用realense-ros出现“symbol lookup error ... undefined symbol: _ZN2cv3M “解决方法(这个问题在我这里终结)
symbol lookup error: /home/khz/ROS/catkin_ws/devel/lib//librealsense2_camera.so: undefined symbol: _ZN2cv3MatC1EiiiRKNS_7Scalar_IdEE
2022-02-17 10:41:20
9185
22
原创 【OpenCV(C++)快速入门】--下篇--OpenCV中的颜色、形状、人脸和轮廓检测
【专栏介绍】因为专业需要用到OpenCV来处理图像数据,所以需要学习,搜索了网上的相关资料,整体知识比较零散,花费了较多时间,所以才萌生了将学习过程整理成专栏的形式,希望能帮到后来的人,也方便自己复习。如有错漏欢迎评论或者私信指出,我定当及时更正。本系列共有上中下三篇,后面有空会再做个小项目,并放出来。上篇:https://blog.youkuaiyun.com/weixin_45703465/article/details/122583084https://blog.youkuaiyun.com/weixin_45703
2022-01-19 19:58:55
7501
5
原创 【OpenCV(C++)快速入门】--中篇--OpenCV中对图像的处理
【专栏介绍】因为专业需要用到OpenCV来处理图像数据,所以需要学习,搜索了网上的相关资料,整体知识比较零散,花费了较多时间,所以才萌生了将学习过程整理成专栏的形式,希望能帮到后来的人,也方便自己复习。如有错漏欢迎评论或者私信指出,我定当及时更正。本系列共有上中下三篇,后面有空会再做个小项目,并放出来。上篇:计算机图像颜色基础理论中篇:OpenCV中对图像的处理下篇:OpenCV中的颜色、形状和轮廓检测
2022-01-19 19:58:17
5793
3
原创 【OpenCV(C++)快速入门】--上篇--计算机图像颜色基础理论
【OpenCV快速入门】系列将会有上中下三篇,由浅入深,来入个门,因为我也是初学,整个系列参考了很多资料都会在文末标明。
2022-01-19 19:54:12
7704
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人