
大模型
文章平均质量分 87
三谷秋水
计算机视觉、图像视频处理、机器学习(深度学习)、自动驾驶、大模型和具身智体。
展开
-
ZeroMimic:从网络视频中蒸馏机器人操作技能
25年3月来自费城宾大的论文“ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos”。机器人操作领域的许多最新进展都来自模仿学习,但这些进展很大程度上依赖于模仿一种特别难以获得的演示形式:在同一房间内用同一机器人收集的演示,这些演示与训练策略在测试时必须处理的物体相同。相比之下,已经存在大量预先录制的人类视频数据集,展示了野外的操作技能,其中包含对机器人有价值的信息。是否有可能从这些数据中提取出有用的机器人技能策略库,而无需对原创 2025-04-10 00:15:00 · 1108 阅读 · 0 评论 -
具身推理器:协同视觉搜索、推理和行动,实现具身交互任务
25年3月来自浙大、中科院软件所、中科院大学、阿里达摩院、南京软件所、南邮和河海大学的论文“Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks”。深度思维模型的最新进展,已在数学和编码任务上展现出卓越的推理能力。然而,它们在需要通过图像动作交错轨迹与环境持续交互的具身域中的有效性仍未得到充分探索。本文提出了具身推理器,该模型将 o1 式推理扩展到交互式具身搜索原创 2025-04-09 00:15:00 · 938 阅读 · 0 评论 -
MPDrive:利用基于标记的提示学习提高自动驾驶的空间理解能力
25年4月来自南方科技大学、百度、英国 KCL和琶洲实验室(广东 AI 和数字经济实验室)的论文“MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving”。自动驾驶视觉问答(AD-VQA)旨在根据给定的驾驶场景图像回答与感知、预测和规划相关的问题,这在很大程度上依赖于模型的空间理解能力。先前的工作通常通过坐标的文本表示来表达空间信息,导致视觉坐标表示和文本描述之间存原创 2025-04-09 00:15:00 · 1625 阅读 · 0 评论 -
OpenDriveVLA:通过大型视觉-语言-动作模型实现端到端自动驾驶
25年3月来自慕尼黑工大和慕尼黑大学的论文“OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model”。OpenDriveVLA,一种专为端到端自动驾驶而设计的视觉-语言-动作 (VLA) 模型。OpenDriveVLA 以开源预训练大型视觉-语言模型 (VLM) 为基础,以 3D 环境感知、自车状态和驾驶员命令为条件生成可靠的驾驶动作。为了弥合驾驶视觉表示和语言嵌入之间的模态差原创 2025-04-06 17:08:00 · 1095 阅读 · 0 评论 -
CoLMDriver:基于 LLM 的协商有利于合作自动驾驶
25年3月来自上海交大和上海AI实验室的论文“CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving”。车对车 (V2V) 协作式自动驾驶通过解决单智体系统固有的感知和预测不确定性,有望在提高安全性方面取得巨大进展。然而,传统的协作方法受到严格的协作协议和对未见过交互场景有限泛化的限制。虽然基于 LLM 的方法提供了广义推理能力,但它们在空间规划方面的挑战和不稳定的推理延迟阻碍它们在协作驾驶中的直接应用。为了解决原创 2025-04-05 00:15:00 · 780 阅读 · 0 评论 -
HybridVLA:一个统一视觉-语言-动作模型中的协同扩散和自回归
25年3月来自北京大学、北京智源研究院和香港城市大学的论文“HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model”。用于常识推理的视觉-语言模型 (VLM) 的最新进展导致视觉-语言-动作 (VLA) 模型的发展,使机器人能够执行泛化操作。尽管现有的自回归 VLA 方法利用大规模预训练知识,但它们破坏动作的连续性。同时,一些 VLA 方法结合额外的扩散头来预测连续动作原创 2025-04-04 03:45:00 · 857 阅读 · 0 评论 -
MoLe-VLA:通过混合层实现的动态跳层视觉-语言-动作模型实现高效机器人操作
25年3月来自南京大学、香港理工、北大和香港科技大学的论文“MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation”。多模态大语言模型 (MLLM) 在理解复杂语言和视觉数据方面表现出色,使通用机器人系统能够解释指令并执行具体任务。尽管如此,它们在现实世界中的部署仍受到大量计算和存储需求的阻碍。最近对 LLM 层中同质模式的洞察原创 2025-04-03 00:15:00 · 1911 阅读 · 0 评论 -
CoT-VLA:视觉-语言-动作模型的视觉思维链推理
25年3月来自Nvidia、斯坦福和MIT的论文“CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models”。视觉-语言-动作模型 (VLA) 已显示出利用预训练的视觉语言模型和各种机器人演示来学习可泛化的感觉运动控制的潜力。虽然这种范式有效地利用了来自机器人和非机器人来源的大规模数据,但当前的 VLA 主要侧重于直接输入-输出映射,缺乏对复杂操作任务至关重要的中间推理步骤。因此,现有的 VLA 缺乏时间规划原创 2025-04-03 00:15:00 · 1072 阅读 · 0 评论 -
大语言模型智体的综述:方法论、应用和挑战(下)
25年3月来自北京大学、UIC、广东大亚湾大学、中科院计算机网络信息中心、新加坡南阳理工、UCLA、西雅图华盛顿大学、北京外经贸大学、乔治亚理工和腾讯优图的论文“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”。智体时代已经到来,大语言模型的革命性进步推动这一时代。大语言模型 (LLM) 智体具有目标驱动行为和动态适应能力,可能代表着通向通用人工智能的关键途径。本研究通过以方法论为中心的分类原创 2025-04-02 00:15:00 · 836 阅读 · 0 评论 -
大语言模型智体的综述:方法论、应用和挑战(上)
25年3月来自北京大学、UIC、广东大亚湾大学、中科院计算机网络信息中心、新加坡南阳理工、UCLA、西雅图华盛顿大学、北京外经贸大学、乔治亚理工和腾讯优图的论文“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”。智体时代已经到来,大语言模型的革命性进步推动这一时代。大语言模型 (LLM) 智体具有目标驱动行为和动态适应能力,可能代表着通向通用人工智能的关键途径。本研究通过以方法论为中心的分类原创 2025-04-02 00:15:00 · 674 阅读 · 0 评论 -
DataPlatter:利用最少成本数据提升机器人操控的泛化能力
25年3月来自中科院计算所的论文“DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data”。视觉-语言-动作 (VLA) 模型在具身人工智能中的应用日益广泛,这加剧对多样化操作演示的需求。然而,数据收集的高成本往往导致所有场景的数据覆盖不足,从而限制模型的性能。大型工作空间中的空间推理阶段 (SRP) 占主导地位,导致失败的情况居多。幸运的是,这些数据可以以低成本收集,凸显利用廉价数据来提高模型原创 2025-04-01 00:15:00 · 875 阅读 · 0 评论 -
ReBot:通过真实-到-模拟-到-真实的机器人视频合成扩展机器人学习
25年3月来自UNC Chapel Hill、robotics & AI inst 和西雅图华盛顿大学的论文“ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis”。视觉-语言-动作 (VLA) 模型通过直接在 Open X-Embodiment 等真实机器人数据集上训练策略,是一种有前途的范例。然而,现实世界数据收集的高成本阻碍了进一步的数据扩展,从而限制 VLA 的泛化。本文介绍 ReBot,一种原创 2025-04-01 00:15:00 · 1046 阅读 · 0 评论 -
Trinity:模块化人形机器人 AI 系统
25年3月来自北京人形机器人创新中心和香港科大(广州分校)的论文“Trinity: A Modular Humanoid Robot AI System”。近年来,人形机器人的研究越来越受到人们的关注。随着各类人工智能算法的突破,以人形机器人为代表的具身智能备受期待。强化学习(RL)算法的进步大大提高人形机器人的运动控制和泛化能力。同时,大语言模型(LLM)和视觉-语言模型(VLM)的突破性进展为人形机器人带来更多的可能性和想象力。LLM使人形机器人能够从语言指令中理解复杂任务并执行长期任务规划,而VLM原创 2025-03-31 00:15:00 · 1131 阅读 · 0 评论 -
系统 0/1/2/3:多时间尺度具身集体认知系统的四元-过程理论
25年3月来自日本京都大学、立命馆大学、庆应义塾大学、东京大学、大阪大学和欧姆龙公司的论文“System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems”。本文介绍系统 0/1/2/3 框架,作为二元-过程(dual-process)理论的扩展,采用四元-过程(quad-process)认知模型。在系统 1(快速、直觉思维)和系统 2(慢速、深思熟虑思维)的基础上,结合系统 0原创 2025-03-30 00:15:00 · 937 阅读 · 0 评论 -
COMPASS:通过残差强化学习和技能合成实现跨具身移动策略
25年2月来自 Nvidia、UC Berkeley 和 UT Austin 的论文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。随着机器人越来越多地部署在不同的应用领域,可泛化的跨具身移动策略变得越来越重要。虽然经典的移动栈已被证明在特定的机器人平台上有效,但它们在泛化到新具身时带来了重大挑战。基于学习的方法,例如模仿学习 (IL) 和强化学习 (RL),提供了替代解决方案,但受到协变量漂移原创 2025-03-29 00:15:00 · 966 阅读 · 0 评论 -
GR00T N1:通才人形机器人的开放基础模型(下)
25年3月来自Nvidia的论文“GR00T N1: An Open Foundation Model for Generalist Humanoid Robots”。通用机器人需要多功能的身体和聪明的头脑。人形机器人的最新进展显示出作为在人类世界中构建通才自主性硬件平台的巨大潜力。在大量多样化数据源上训练的机器人基础模型,对于使机器人能够推理新情况、稳健地处理现实世界的变化以及快速学习新任务至关重要。为此,Nvidia推出 GR00T N1,一种人形机器人的开放式基础模型。GR00T N1 是一种具有双原创 2025-03-28 00:15:00 · 736 阅读 · 0 评论 -
GR00T N1:通才人形机器人的开放基础模型(上)
25年3月来自Nvidia的论文“GR00T N1: An Open Foundation Model for Generalist Humanoid Robots”。通用机器人需要多功能的身体和聪明的头脑。人形机器人的最新进展显示出作为在人类世界中构建通才自主性硬件平台的巨大潜力。在大量多样化数据源上训练的机器人基础模型,对于使机器人能够推理新情况、稳健地处理现实世界的变化以及快速学习新任务至关重要。为此,Nvidia推出 GR00T N1,一种人形机器人的开放式基础模型。GR00T N1 是一种具有原创 2025-03-28 00:15:00 · 1606 阅读 · 0 评论 -
停止过度思考:大语言模型的有效推理综述(下)
25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)(例如 OpenAI o1 和 DeepSeek-R1)的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理,进一步提高了数学和编程等系统 2 推理领域的性能。然而,虽然较长的 CoT 推原创 2025-03-27 00:15:00 · 1096 阅读 · 0 评论 -
停止过度思考:大语言模型的有效推理综述(上)
25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)(例如 OpenAI o1 和 DeepSeek-R1)的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理,进一步提高了数学和编程等系统 2 推理领域的性能。然而,虽然较长的 CoT 推原创 2025-03-27 00:15:00 · 1246 阅读 · 0 评论 -
3D-ViTac:通过视觉-触觉感知学习精细操作
25年1月来自哥伦比亚大学、UIUC和华盛顿大学的论文“3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing”。摘要:触觉和视觉感知对于人类与环境进行细粒度交互都至关重要。为机器人开发类似的多模态感知能力可以显著增强和扩展它们的操作技能。 3D-ViTac,是一种专为灵巧双手操作而设计的多模态感知学习系统。系统采用配备密集传感单元的触觉传感器,每个传感单元覆盖 3mm^2 的面积。这些传感器成本低且灵活,提供详细而广原创 2025-03-26 00:15:00 · 792 阅读 · 0 评论 -
MoManipVLA:将视觉-语言-动作模型迁移到通用移动操作
25年3月来自北邮、南阳理工和清华的论文“MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation”。移动操控是机器人在日常生活中协助人类完成各种任务和环境所面临的基本挑战。然而,传统的移动操控方法由于缺乏大规模训练往往难以在不同任务和环境中泛化。相比之下,视觉-语言-动作 (VLA) 模型的最新进展已表现出深刻的泛化能力,但这些基础模型是为固定基座操控任务开发的。因此,本文提出一个高效的策原创 2025-03-26 00:15:00 · 839 阅读 · 0 评论 -
Cosmos-Reason1:从物理常识到具身推理(下)
25年3月来自 Nvidia 的论文“Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning”。物理 AI 系统需要感知、理解和执行物理世界中的复杂动作。Cosmos-Reason1 模型,可以理解物理世界并通过长链思维推理过程以自然语言生成适当的具身决策(例如,下一步动作)。首先定义物理 AI 推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,用分层本体(ontology)来捕获有关空间、时间和物理的基本知识。对于具原创 2025-03-25 00:15:00 · 675 阅读 · 0 评论 -
Cosmos-Reason1:从物理常识到具身推理(上)
25年3月来自 Nvidia 的论文“Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning”。物理 AI 系统需要感知、理解和执行物理世界中的复杂动作。Cosmos-Reason1 模型,可以理解物理世界并通过长链思维推理过程以自然语言生成适当的具身决策(例如,下一步动作)。首先定义物理 AI 推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,用分层本体(ontology)来捕获有关空间、时间和物理的基本知识。对于具原创 2025-03-25 00:15:00 · 709 阅读 · 0 评论 -
LLM 后训练:深入探究大语言模型的推理(下)
25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域,并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础,但研究界现在越来越多地将重点转向后训练技术,以实现进一步的突破。虽然预训练提供广泛的语言基础,但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性,并更有效地原创 2025-03-24 00:15:00 · 1052 阅读 · 0 评论 -
LLM 后训练:深入探究大语言模型的推理(上)
25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域,并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础,但研究界现在越来越多地将重点转向后训练技术,以实现进一步的突破。虽然预训练提供广泛的语言基础,但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性,并更有效地与原创 2025-03-24 00:15:00 · 986 阅读 · 0 评论 -
SAMEO:分割任何物体 (即使被遮挡)
25年3月来自台湾清华、Nvidia 公司、台大和 Aeolus 机器人公司的论文“Segment Anything, Even Occluded”。非模态实例分割,旨在检测和分割图像中物体的可见和不可见部分,在自动驾驶、机器人操控和场景理解等各种应用中发挥着至关重要的作用。虽然现有方法需要联合训练前端检测器和掩码解码器,但这种方法缺乏灵活性,无法利用现有模态检测器的优势。为了解决这一限制,SAMEO,采用 Segment Anything 模型 (SAM) 作为多功能掩码解码器,能够与各种前端检测器接口原创 2025-03-23 00:15:00 · 1154 阅读 · 0 评论 -
大语言模型的长思维链推理:综述(下)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 1140 阅读 · 0 评论 -
大语言模型的长思维链推理:综述(上)
25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展原创 2025-03-21 00:15:00 · 1976 阅读 · 0 评论 -
PointVLA:将 3D 世界注入视觉-语言-动作模型
25年3月来自美的集团、上海大学和华东师大的论文“PointVLA: Injecting the 3D World into Vision-Language-Action Models”。视觉-语言-动作 (VLA) 模型利用大规模 2D 视觉语言预训练,在机器人任务方面表现出色,但它们对 RGB 图像的依赖,限制对现实世界交互至关重要的空间推理。使用 3D 数据重训练这些模型在计算上是无法承受的,而丢弃现有的 2D 数据集会浪费宝贵的资源。为了弥补这一差距,PointVLA,使用点云输入增强预训练 V原创 2025-03-20 00:15:00 · 1206 阅读 · 0 评论 -
AnyTouch:跨多个视觉触觉传感器学习统一的静态动态表征
25年3月来自人大、武汉科技大学和北邮的论文“AnyTouch: Learning Unified Static-dynamic Representation Across Multiple Visuo-tactile Sensors”。视觉触觉传感器旨在模拟人类的触觉感知,使机器人能够精确地理解和操纵物体。随着时间的推移,许多精心设计的视觉触觉传感器已经集成到机器人系统中,帮助完成各种任务。然而,这些低标准化视觉触觉传感器的独特数据特性阻碍了强大的触觉感知系统的建立。解决这个问题的关键,在于学习统一的原创 2025-03-20 00:15:00 · 808 阅读 · 0 评论 -
Mobile-Agent-V:通过视频引导的多智体协作学习移动设备操作
25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。移动设备使用量的快速增长,迫切需要改进自动化以实现无缝任务管理。然而,因缺乏操作知识,许多人工智能驱动的框架举步维艰。手写知识虽然有帮助,但劳动强度大、效率低下。为了应对这些挑战,Mobile-Agent-V,利用视频指导为移动自动化提供丰富且经济高效操作知识。原创 2025-03-19 00:15:00 · 1045 阅读 · 0 评论 -
OctoTools:一个具有复杂推理可扩展工具的智体框架
25年2月来自斯坦福大学的论文“OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型 (LLM),但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的 OctoTools,是一个无需训练、用户友好且易于扩展的开源智体框架,旨在解决跨不同域的复杂推理。OctoTools 引入标准化工具卡来封装工原创 2025-03-19 00:15:00 · 1237 阅读 · 0 评论 -
探索具身多模态大模型:开发、数据集和未来方向(下)
25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。近年来,具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展,包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型,同时也研究其他新兴原创 2025-03-18 00:15:00 · 1059 阅读 · 0 评论 -
探索具身多模态大模型:开发、数据集和未来方向(上)
25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。近年来,具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展,包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型,同时也研究其他新兴架原创 2025-03-18 00:15:00 · 1594 阅读 · 0 评论 -
Gemma 3 技术报告
Gemma 3,是 Gemma 系列轻量级开放模型中的多模态成员,其规模从 10 亿到 270 亿个参数不等。此版引入视觉理解能力、更广泛的语言覆盖范围和更长的上下文(至少 128K 个tokens)。还更改模型的架构,减少在长上下文中往往会爆炸的 KV-缓存内存。这是通过增加局部与全局注意层的比例并保持局部注意的跨度较短来实现的。Gemma 3 模型经过蒸馏训练,无论是预训练版还是指令微调版,其性能都优于 Gemma 2。特别是,后训练方法显著提高数学、聊天、指令遵循和多语言能力,使 Gemma3-4B-原创 2025-03-17 00:15:00 · 1428 阅读 · 0 评论 -
Gemini Robotics:将人工智能带入物理世界
25年3月来自谷歌的技术报告“Gemini Robotics: Bringing AI into the Physical World”。大型多模态模型的最新进展,已使数字领域出现卓越的通才能力,但将其转化为机器人等物理智体仍然是一项重大挑战。一般有用的机器人需要能够理解周围的物理世界,并与之进行有效和安全的交互。本报告介绍专为机器人设计并建立在 Gemini 2.0 基础上的AI 模型系列。Gemini Robotics,是一种能够直接控制机器人的视觉-语言-动作 (VLA) 通才模型。Gemin原创 2025-03-17 00:00:00 · 1274 阅读 · 1 评论 -
Chameleon: 快-慢思考的神经-符号车道拓扑提取
25年3月来自清华和博世的论文“Chameleon: Fast-slow Neuro-symbolic Lane Topology Extraction”。车道拓扑提取,涉及检测车道和交通元素并确定它们之间的关系,这是无地图自动驾驶的一项关键感知任务。此任务需要复杂的推理,例如确定是否可以左转进入特定车道。为了应对这一挑战,引入由视觉-语言基础模型 (VLM) 驱动的神经-符号方法。现有方法有明显的局限性:(1) 使用 VLM 进行密集的视觉提示可以实现强大的性能,但在财务资源和碳足迹方面成本高昂,因此原创 2025-03-15 00:15:00 · 951 阅读 · 0 评论 -
Occ-LLM:利用基于占用的大语言模型增强自动驾驶
25年2月来自香港科技大学广州分校的论文“Occ-LLM: Enhancing Autonomous Driving with Occupancy-Based Large Language Models”。大语言模型 (LLM) 在机器人和自动驾驶领域取得重大进步。本研究提出一个基于占用的大型语言模型 (Occ-LLM),它代表将 LLM 与重要表示相结合的开创性努力。为了有效地将占用编码为 LLM 的输入并解决与占用相关的类别不平衡问题,其提出运动分离-变分自动编码器 (MS-VAE)。这种方法利用先验原创 2025-03-15 00:15:00 · 944 阅读 · 0 评论 -
AlphaDrive:通过强化学习和推理释放自动驾驶中 VLM 的力量
25年3月来自华中科技大学和地平线的论文“AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning”。OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到甚至超越人类专家级表现,其中强化学习 (RL) 和推理发挥着至关重要的作用。在自动驾驶中,最近的端到端模型已经大大提高规划性能,但由于常识和推理能力有限,仍然难以解决长尾问题。一些研究原创 2025-03-14 00:15:00 · 932 阅读 · 0 评论 -
DexGraspVLA:面向通用灵巧抓取的视觉-语言-动作框架
25年3月来自北大、北大-灵初智能(PsiBot)联合实验室、香港科技大学广州分校的论文“DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping”。灵巧抓取仍然是机器人技术中一个基本但具有挑战性的问题。通用机器人必须能够在任意场景中抓取各种物体。然而,现有研究通常依赖于特定假设,例如单物体设置或有限环境,导致泛化受限。本文 DexGraspVLA,是一个分层框架,它利用预训练的视觉语言模型作为高原创 2025-03-14 00:15:00 · 1476 阅读 · 0 评论