- 博客(113)
- 收藏
- 关注
原创 具身智能之高层任务规划(High-level Task Planning)
高层任务规划(High-level Task Planning)是机器人技术中的关键环节,它涉及将用户的自然语言指令解析并分解为多个可执行的子任务,进而逐步生成可执行的行动序列。这一过程不仅要求机器人具备理解复杂任务指令的能力,还需要它能够推理出完成任务所需的步骤和顺序。
2024-12-17 15:06:10
799
原创 具身智能之视觉-语言-动作模型(Vision-Language-Action Model)
视觉-语言-动作模型(VLA)是处理视觉和语言的多模态输入并输出机器人动作以完成具身任务的模型。
2024-12-16 20:48:13
2224
原创 具身智能之视觉语言导航(VLN)类别与基准
这篇文章简要介绍了视觉语言导航(VLN)的研究,包括其任务类型和数据集基准。VLN旨在使智能体能够根据自然语言指令在未知环境中导航。文章概述了四种主要任务类型:指令导向、目标导向、需求导向和对话导向,并提到了几个关键数据集,如R2R和VLN-CE,这些数据集用于测试智能体的导航能力。
2024-12-16 17:04:35
3147
原创 RT系列机器人详细介绍(BC-Z、RT-1、OMM、RT-Trajectory、Q-Transformer、RT-2、RT-X、RT-H)
本文详细介绍了RT系列的8个机器人的详细情况
2024-12-13 11:00:37
1207
原创 基于Node2Vec的图嵌入实现过程
本文的目的在于详细介绍如何通过代码实践使用Node2Vec进行图嵌入、对嵌入结果进行可视化,并最终将嵌入向量存储为JSON文件。
2024-10-05 23:12:08
1158
原创 DialMAT:跨模态特征提取与对抗训练的结合
本文介绍了DialMAT模型,用于解决智能体在复杂环境中通过对话获取信息完成任务的挑战。博客概述了DialFRED任务,并详细说明了DialMAT的架构,包括提问模块(Questioner)和基于矩的对抗执行器(MAPer)。重点介绍了基于矩的对抗训练(MAT),提升模型在不确定环境下的鲁棒性,并通过跨模态并行特征提取结合语言和视觉信息,提高任务执行效果。
2024-09-29 20:16:45
1145
原创 DialFRED基准:具有对话能力的具身智能Agent
本文介绍了DialFRED基准,旨在解决机器人在复杂任务执行中处理自然语言指令的挑战。通过引入对话机制,DialFRED让机器人能够主动提问并从用户反馈中获取信息,解决任务中的歧义。博客详细分析了DialFRED的数据集构成、任务类型,以及提问者-执行者框架,展示了如何通过强化学习和启发式方法优化机器人的任务执行表现。
2024-09-29 20:00:16
939
原创 FLTRNN:基于大型语言模型的机器人复杂长时任务规划
FLTRNN框架通过任务分解、递归神经网络和规则思维链的设计,解决了LLM在长时任务规划中常见的忠实性问题。
2024-09-05 13:29:42
1847
原创 基于视觉-语言模型的机器人任务规划:ViLaIn框架解析
本文介绍了ViLaIn框架如何通过视觉和语言模型生成符号化任务描述,并借助符号规划器为机器人生成可执行的任务计划。
2024-09-05 13:10:40
1012
原创 基于时序差分的无模型强化学习:Q-learning 算法详解
本文主要探讨无模型强化学习中的时序差分方法,重点介绍了 Q-learning 算法。通过阐述 Q-learning 的核心原理、状态-动作值函数的更新方式,以及其在离线策略中的应用,本文展示了该算法在复杂环境中寻找最优策略的强大能力。此外,还对比了 Q-learning 与其他强化学习方法的异同,强调了其在探索与利用平衡、样本复杂度上的优势。
2024-09-05 10:54:16
1135
原创 强化学习——马尔可夫决策过程的理解
这篇文章介绍了马尔可夫决策过程(MDP)及其相关概念。它解释了MDP的基本结构,包括状态、动作、策略、状态价值函数和动作价值函数,并讨论了这些概念如何在强化学习中帮助智能体最大化累积奖励。文章还介绍了贝尔曼期望方程,用于计算状态价值和动作价值。整体内容旨在阐明MDP在强化学习中的应用和数学基础。
2024-09-01 17:39:26
1527
原创 具身智能方案——基于“想象链”机制的MineDreamer智能体
介绍了论文《Minedreamer: Learning to follow instructions via chain-of-imagination for simulated-world control》
2024-06-12 21:47:45
1223
原创 机器人多任务操作的SAM-E架构
介绍ICML2024论文《SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation》
2024-06-12 21:39:59
1046
原创 视觉与语言导航模型I2EDL
介绍了论文《I2EDL: Interactive Instruction Error Detection and Localization》
2024-06-12 21:27:18
923
原创 视觉-语言模型零样本推理方法
介绍了CVPR2024论文《Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning》
2024-06-12 21:20:39
1469
2
原创 逆向计划搜索框架CLIPS
解读AAMAS2024论文《Pragmatic Instruction Following and Goal Assistance via Cooperative Language-Guided Inverse Planning》
2024-06-11 11:34:43
796
原创 结合LLM的具身指令执行框架OPEx
解读AAMAS2024论文《OPEx: A Large Language Model-Powered Framework for Embodied Instruction Following 》
2024-06-11 11:24:31
1243
原创 LLM零样本任务性能的通用提示检索机制UPRISE
解读EMNLP2023论文《Uprise: Universal prompt retrieval for improving zero-shot evaluation》
2024-06-10 22:29:26
1209
原创 跨语言链式思考推理的提示技术CLP
解读EMNLP2023论文《Cross-lingual Prompting: Improving Zero-shot Chain-of-Thought Reasoning across Languages》
2024-06-10 22:19:19
1428
原创 Recognize Anything: A Strong Image Tagging Model(RAM模型使用方法)
详细介绍了RAM模型的使用方法
2024-06-09 13:38:06
1960
原创 LLM的物理推理与规划方法E2WM
NeurIPS2024论文《Language models meet world models: Embodied experiences enhance language models》
2024-06-06 15:23:43
1235
原创 BERT应用——文本间关联性分析
本文结合了自然语言处理(NLP)和深度学习技术,旨在分析一段指定的任务文本中的动词,并进一步探讨这个动词与一系列属性之间的关联性。具体技术路径包括文本的词性标注、语义编码和模型推断。
2024-06-06 14:46:26
2151
原创 自然语言指令执行机器人控制策略GRIF
CoRL2023论文《Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control》
2024-06-06 13:40:13
806
原创 具身指令跟随模型LACMA
介绍了论文:EMNLP2023《LACMA: Language-Aligning Contrastive Learning with Meta-Actions for Embodied Instruction Following》
2024-06-05 16:09:04
974
原创 多阶段任务自然语言指令执行方法GOALNET
AAAI2024论文《GOALNET: Interleaving Neural Goal Predicate Inference with Classical Planning for Generalization in Robot Instruction Following》
2024-06-05 14:18:27
828
原创 论文解读——ICLR2024《Online Continual Learning For Interactive Instruction Following Agents》
Online Continual Learning For Interactive Instruction Following Agents
2024-06-04 10:12:44
839
原创 论文解读——CVPR2022《One step at a time: Long-horizon vision-and-language navigation with milestones》
介绍了CVPR2022的具身智能方向的论文《One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones》
2024-06-03 20:37:27
754
原创 IEEE Robotics and Automation Letters(RAL)期刊投稿时间记录
2024.1.15 submittion2024.1.16 Under review2024.3.2 Decision pending2024.3.6 Revise and resumption2024.4.1Resubmit,Under review2024.5.16 Decision pending2024.5.22 Accept
2024-05-30 13:05:50
2049
10
原创 Graph Embedding——Node2Vec
具体来说,Node2Vec首先从图中的每个节点出发执行多次随机游走,生成大量的节点序列,这些序列在概念上类似于自然语言处理中的句子,其中的节点则相当于单词。随后,利用Skip-Gram模型,Node2Vec将这些“句子”作为输入,通过最大化节点序列中的共现概率来学习节点的向量表示。Node Embedding,节点嵌入,旨在将图中的节点映射到一个低维度的连续向量空间中,以便在这一空间内,通过向量的几何关系反映出节点在原图中的拓扑结构和节点间的关系等属性。
2024-05-14 08:38:00
407
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人