自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

泰上勒君的博客

日常学习分享

  • 博客(16)
  • 收藏
  • 关注

原创 深入浅出对比学习

对比学习是一种学习方法,侧重于通过对比正反两方面的实例来提取有意义的表征。它利用的假设是,在学习到的嵌入空间中,相似的实例应靠得更近,而不相似的实例应离得更远。通过将学习作为一项辨别任务,对比学习允许模型捕捉数据中的相关特征和相似性。

2025-04-22 13:46:27 1121

原创 论文分享:【2024 CVPR】Vision-and-Language Navigation via Causal Learning

本文提出跨模态因果Transformer(`GOAT`),首创的基于因果推断范式的方法。Causal learning 的一个重要话题是解决out-of-distribtution,本文就是将其引入VLN任务中,使其不仅限于增加数据集的规模和多样性,还可通过因果学习来提高模型的泛化能力。

2025-04-21 22:59:27 1163

原创 论文分享:Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations 4 VLN

这篇文章就想不仅仅是基于RGB图像来获得环境的信息。对于环境信息,会用文字来逐个描述各个视角,然后进行整体融合得到一个文本描述的全景图,想通过这种显性的方式来缩小视觉和语言之间的gap。然后是对于地图的构建,不仅仅是依靠RGB的信息,还另外基于深度信息这个模态来构造地图,来补充增强模型对于环境上下文的理解。

2025-04-19 19:04:16 1037

原创 图解MOE(混合专家模型)

专家混合模型(MoE)是一种通过使用多个不同的子模型(或“专家”)来提升 LLM 质量的技术。专家(Experts):每个前馈神经网络层(FFNN)现在都有一组可以选择的“专家”。这些“专家”通常本身也是前馈神经网络(FFNN)。路由器或门控网络(Router 或 Gate Network):决定哪些 token 被发送到哪些专家。在具有 MoE 的 LLM 的每一层中,我们可以发现一些(相对专业化的)专家:这些“专家”并不像人类领域中的“心理学”或“生物学”专家那样在特定学科上表现出高度专业化。

2025-04-17 16:30:22 878

原创 What is LoRA?

全量参数 Fine-tune 需要调整模型全部参数,随着预训练模型规模的不断扩大(DeepSeek-R1,Total Params 671B),全量 Fine-tune 的资源压力也倍增。

2025-04-17 16:12:32 868

原创 论文分享:【2024 CVPR】Lookahead Exploration with Neural Radiance Representation for VLN-CE

前瞻探索策略旨在通过准确预测候选位置的未来环境来有效评估智能体的下一步行动。一些现有研究尝试预测未来环境的 RGB 图像,但这种策略存在图像失真和高计算成本的问题。本文提出 **预训练的分层神经辐射表示模型(HNR)**,用于为未来环境生成多层次的语义特征,该方法相比逐像素的 RGB 重建更加稳健且高效。借助预测的未来环境表示,前瞻 VLN 模型能够构建可导航的未来路径树,并通过高效的并行评估选择最优路径。在 VLN-CE 数据集上的大量实验验证了该方法的有效性。

2025-04-12 22:50:32 1022

原创 论文分享:【2024 TPAMI】ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous

这是一篇期刊文献,参考了DUET的思想在**连续环境**中进行视觉语言导航(VLN-CE)。整体思想和DUET很相似,ETPNav通过自组织预测的路径点(waypoint)在没有先验知识的情况下完成环境的在线拓扑映射,然后基于Transformer完成拓扑地图和指令的跨模态对齐并生成导航计划。然后通过避障控制器执行该计划,该控制器利用试探法和启发式算法防止导航被障碍物卡住。在R2R-CE和RxR-CE数据集上进行了测评。

2025-04-12 22:43:55 804

原创 论文分享:【2024 NeurIPS】Trajectory Diffusion for ObjectGoal Navigation

本文提出了轨迹扩散(trajectory diffusion)的方法,以学习轨迹序列的分布,使导航规划更具时序一致性。采用去噪扩散概率模型(DDPM, Denoising Diffusion Probabilistic Model),结合自动收集的最优轨迹数据来训练该模型。训练后的轨迹扩散模型可以根据当前观察到的环境,生成一个时间上连贯的未来轨迹序列,引导智能体更好地进行导航。

2025-04-12 22:39:29 1546

原创 论文分享:【2024 CVPR】An Interactive Navigation Method with Effect-oriented Affordance

本文引入了一种**面向效果的可供性(affordance)地图**,以支持**长期**交互式导航,并将现有的基于地图的导航框架扩展到动态环境领域。训练了一组**可供性函数**,以预测可执行的交互方式以及移除障碍物所需的时间成本,从而为交互式模块化系统提供信息支持,以解决交互和长期规划问题。在 ProcTHOR 模拟器上做了实验。

2025-04-12 22:33:57 1821

原创 论文分享:【2025 AAAI】FloNa Floor Plan Guided Embodied Visual Navigation

作者将场景分为67个用于训练,50个用于测试,以评估模型在未见过的环境中的泛化能力。根据场景的大小,设置不同的导航片段数量,小场景每个150段,中等场景每个180段,大场景每个200段。目标点随机选择,包括已经走过轨迹的末端,以及轨迹后面一点的位置,以鼓励模型学习更通用的导航能力。它将视觉观察信息(智能体看到的图像)和环境的平面图信息融合在一起,使用一个扩散策略模型学习如何在拥挤的环境中导航,并且能够避免碰撞。的新的任务,即给定带有目标红点的平面图,代理通过RGB视觉观察导航到对应目标位置的任务。

2025-04-12 22:28:12 767

原创 论文分享:【2025 ICLR】Efficient and Context-Aware Label Propagation for Zero-Few-Shot…

但是,在少样本标注样本的特征中,高方差通道可能反映的是类内变化,这种变化在计算相似度时应该被抑制。尽管现有SOTA的VLMs在标签效率、训练效率和数据效率方面有所改进,但是在适应下游任务时仍需要针对任务进行超参数调整,并且未能完全利用到测试样本来提升性能。传统标签传播的问题是需要对所有数据点传播标签,计算复杂度高,且不能充分利用已经计算的伪标签(pseudo labels)。为了减少超参数调优,本文提出基于图的适配与推理方法,动态构建包含少样本、测试样本和文本提示的图,利用数据流形结构采用。

2025-04-12 22:23:58 1018

原创 论文分享:【2025 ICLR】GENERAL SCENE ADAPTATION FOR VISION-AND LANGUAGE NAVIGATION

本文就提出了一个新的任务General Scene Adaptation for VLN(**GSA-VLN**)来解决上述的问题,使得代理在特定场景中执行导航指令的同时,能够适应该场景并随着时间推移提升性能。此外,论文还提出了一个新的数据集**GSA-R2R**,用于评估代理在分布内和分布外环境中的适应能力,并设计了一个三阶段指令编排流程,利用LLMs来丰富指令的多样性和风格,来更好反映现实世界中用户指令的多样性。

2025-04-12 22:17:16 886

原创 论文分享:【2024 CVPR】Imagine Before Go: Self-Supervised Generative Map for Object Goal Navigation

物体目标导航(ObjectNav)要求智能体在未知环境中导航至指定目标,这就要求智能体能从部分观察中推断未知的上下文物体和环境,从而推测目标的可能位置。本文提出了一种自监督生成地图( **S**elf-supervised **G**enerative **M**ap, **SGM**)的方法,这是一种通过**自监督学习**来学习**显式上下文关系**的**模块化**方法。SGM通过利用情景观察和通用知识来重建局部地图(全局地图被裁剪后生成的)的被遮挡像素进行训练。

2025-04-12 22:12:40 966 2

原创 论文分享:【2023】VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language Navigation

提出了一个针对VLN任务的由两个PETL模块Historical Interaction Booster(HIB)、Cross-modal Interaction Booster(CIB)和几种现有PETL方法结合起来的集成的VLN-PETL方法。

2024-10-24 20:53:49 1193

原创 论文分享:【2024】Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments

本文贡献:在R2R数据集上引入障碍来生成一个新的数据集`R2R-UNO`,用来反映指令-现实的不匹配情况;由于当前VLN方法在有障碍的环境中缺乏适应性,提出`ObVLN`方法,采用课程学习策略和一种新的虚拟图构建方式(为被遮挡的边引入虚拟节点),该方法在原始环境R2R和阻塞环境R2R-UNO中都表现良好。

2024-10-16 20:34:19 1197

原创 安装Elasticsearch8.6.2出现的问题总结(Windows10)

主要记录了在卸载旧版本elasticsearch后,安装最新版本的elasticsearch8.6.2时出现的闪退问题。这是由于jdk环境配置出错而导致的,本文记录了解决此问题的思路和过程。

2023-03-10 09:55:02 1843

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除