- 博客(452)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注

原创 2024年自动驾驶规划控制面试及答案
A*吸取了Dijkstra 算法中的cost_so_far,为每个边长设置权值,不停的计算每个顶点到起始顶点的距离(G),以获得最短路线, 同时也汲取贪婪最佳优先搜索算法中不断向目标前进优势,并持续计算每个顶点到目标顶点的距离(Heuristic distance),以引导搜索队列不断想目标逼近,从而搜索更少的顶点,保持寻路的高效。DWA,TEB算法。通常情况下,在机器人高速运动的时候,想要得到非常连续、平滑、噪音低的运动控制,第3个约束条件是必不可少的,有的甚至还要求加速度的导数jerk都是连续的。
2024-07-22 18:43:12
1418
原创 OpenDriveLab用“非专家”自动驾驶数据训练世界模型,高保真可控模拟,性能提升55.3%!
在实验中,该策略选择机制带来了高达 55.3% 的性能提升。此外,为支持以奖励驱动的任务评估,该研究还设计了 Video2Reward 模块,能够将 ReSim 生成的视频序列转化为真实场景中的奖励信号,从而完成从模拟到评估的闭环路径。现有大多数驾驶世界模型主要依赖真实专家驾驶数据或网页视频(如 NAVSIM 和 OpenDV 数据集),但这类数据存在显著偏差——以人类安全驾驶为主,缺乏碰撞、偏航等“非专家行为”的真实记录,导致模型在遇到未见行为时表现不稳定,难以判断策略好坏、提供可靠奖励。
2025-06-16 00:14:13
464
原创 仅用一台Vision Pro就能控制机器人?MoE&闭环纠错,实现机器人长时域精准遥操作
14个使用IMU基础的Xsens MoCap系统捕获的专业级序列;
2025-06-13 16:55:44
614
原创 盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?
OpenVLA 基于 LLaMA 2 的 7B 参数语言模型,融合 SigLIP 与 DINOv2 提供的视觉特征,使用 Open-X Embodiment 提供的 97 万条真实机器人演示轨迹训练,任务涵盖物体摆放、器具清理、多物体分类等,机器人可根据语言指令快速适配多种身体形态(如 WidowX、Franka 等)。首次实现了网页知识到机器人动作的转移。从早期的任务特化导航器与操作器,到如今能够理解语言、解析图像并生成复杂动作的通用智能体,VLA 模型正在悄然改变我们对“机器人”的认知。
2025-06-12 17:55:26
859
1
原创 交互提速30倍!苏黎世联邦理工提出E-APhI新框架,让无人机敢碰硬、会柔抓
近日,《Science Robotics》期刊上发表了一篇由苏黎世联邦理工学院的Emanuele Aucone和Stefano Mintchev撰写的焦点论文,该研究突破性地提出具身空中物理交互(E-APhI)框架,为飞行机器人从单纯感知观察向主动物理交互的进化指明了方向。这场由具身智能引领的技术变革,本质是对机器人 “智能” 的重新定义 —— 当 “身体” 成为感知与决策的核心载体,飞行机器人正以 “物理智商” 的跃升,跨越从实验室到真实世界的鸿沟,向着 “像生物一样与环境共舞” 的终极目标坚实迈进。
2025-06-11 18:38:52
760
原创 五家顶尖机构联合发布 | 可穿戴外骨骼 + 视觉合成:机器人Ctrl C人类的精细操作
DexUMI在Inspire Hand和XHand这两种机器人手上进行了四项任务(立方体抓取、鸡蛋托盘开合、茶叶采摘、厨房操作),其结果表明:相对手指轨迹比绝对轨迹更具抗干扰性,触觉反馈在力信号清晰的任务中有效,DexUMI数据采集效率是传统遥操作的3.2倍。,使得外骨骼的指尖可以完美地与机器人手的指尖在外骨骼腕部相机的图像中对齐,方便完成软件部分用机械手指替换外骨骼手指,得到示教数据。每个手指的关节处都集成了编码器,并都和DexUMI电路板连接,用于获取电机数值,从而实现关节动作的解算;
2025-06-11 17:00:46
810
原创 机器人「估值断层」,这个小赛道凭什么“挽救”人形top企业?
为什么人形机器人都扎堆来“搞体育”了?当普罗大众唏嘘“机器人拳击是噱头”时,资本早已嗅到了“血腥味”……
2025-06-10 18:38:33
821
原创 比主流VLA小10倍,性能却达SOTA!SmolVLA仅用消费级GPU就能高效操控机器人
因此,该研究提出了SmolVLA,一个开源、轻量且高效的VLA模型,同时发布了完整的训练代码、预训练模型与数据处理流程。根据实验分析,选取前半部分的层作为特征提取来源,在保证性能的同时,显著降低了计算量。通过在模拟环境和真实机器人平台上的广泛评估,该研究展示了SmolVLA即便体量小巧,也能达到甚至超过大模型的表现,为具身智能系统的高效部署与广泛普及提供了切实可行的路径。在模型设计上,SmolVLA着眼于低资源部署场景,采用剪裁的视觉-语言主干网络与轻量级动作专家组件,并利用社区贡献的数据进行预训练。
2025-06-10 17:37:01
789
原创 中山大学GaussianFusion:首个将高斯表示引入端到端自动驾驶多传感器融合的新框架
现有的多传感器融合方法可以分成如图1(a)和(b)的两种类型。(a)采用的是扁平化融合方法,通常将传感器特征通过注意力机制压缩到共享的潜在空间。这类方法具备很好的灵活性,并且不依赖传感器的几何校准。但由于缺乏明确的三维空间表示,限制了它们的可解释性,使其在需要精确空间推理的场景中效果不佳。(b)采用的是将多模态特征投射到一个通用的BEV坐标系中,利用几何先验来对齐来自不同传感器的数据。这种融合方式有助于结构化的空间理解,并提升下游感知任务的性能。
2025-06-09 18:05:37
843
原创 独家专访|机器人领域青年学者:新加坡国立大学助理教授石凡
与优秀的人同行》已成功连线上海交通大学秦通老师、浙江大学高飞老师、清华大学许华哲老师、香港大学李弘扬老师、妙动科技CTO杨硕博士等学术界/产业界顶尖嘉宾,全网播放破几十万。他还是IEEE Spectrum Robotics的撰稿人之一,并在多个国际会议和期刊上担任审稿人,如ICRA、IROS、RAL和RSS。这些研究成果不仅展现了石凡老师在机器人领域的创新能力,也为我们提供了深入探讨机器人技术前沿的契机。我们希望能打破时间、空间、经验的屏障,让更多同仁们能够与不同的业内前辈和杰出青年交流探讨。
2025-06-09 17:04:02
696
原创 最新!多模态机器人控制idea狂飙:西湖大学&浙大提出突破传统VLA局限的统一架构?
让机器人真正“读懂”人类意图,实现自然、流畅的交互,始终是具身智能的核心挑战。尽管语言模型已能理解复杂语义,视觉模型也可精准识别万物,但机器人的指令接收方式仍停留在“文字对话”的单一维度。——为此,西湖大学&浙江大学最新研究进展,提出了开放式多模态指令的视觉-语言-动作模型(OE-VLA)。(图像、视频、手写文字等)。这种扩展不是简单的功能叠加,而是需要模型具备更强的多模态理解和融合能力。带着这个疑问,本文将从模型的核心架构、处理流程等多个维度解析其背后的设计逻辑,并配合代码深入解读这一研究。
2025-06-08 09:15:00
859
原创 5天三大动作|宇树CEO王兴兴“挨揍-爬起-再战”的悲情叙事里的「商业阳谋」
十天前那场价值N亿的金属斗殴现场之外,宇树科技CEO王兴兴在朋友圈兴奋地说到:再次创造人类历史新时刻。而这套“挨揍-爬起-再战”的悲情叙事里,似乎藏着更「深远」的筹划。宇树科技更名为「杭州宇树科技股份有限公司」,新增一位董事——北京京国瑞股权投资基金管理有限公司总经理梁望南……宇树科技发布新品人形机器人预告,并暗示价格将不超过6.5万元!终于等到赛事热度消退,我们可以来扒扒“营销”、“噱头”之外,这场“机器人格斗版404”背后蕴含的真正的技术。👇。
2025-06-07 09:30:00
660
原创 登上Science子刊封面的硬核idea:端到端强化学习,首次实现机器狗全自主打羽毛球!
▲图3|机器人在球场不同位置的击球精度(A)、末端执行器速度跟踪误差(B)、实际挥拍速度与底盘角速度关系(C)以及拍面命中精准性(D)共同验证了强化学习策略对整身18自由度的高效调度能力,支持在动态目标下实现高精度、高速度、稳定的连续击球。机器人自信又熟练的挥拍,能够连续的接回高速飞来的羽毛球。完成在虚拟环境中的训练之后,掌握了初步技能的机器人再来到真实的物理世界进行大量的学习,逐步提升自身的技术水平,从而实现对于羽毛球技能从sim到real的泛化©️【深蓝具身智能】编译。▲图5|接球前的微调。
2025-06-06 14:42:01
608
原创 当VLM学会“临时抱佛脚“:清华新框架让自动驾驶AI按需调用工具,推理能力超越GPT-4o!
引入近年来视觉语言模型发展迅猛,衍生出来了诸多应用和产品,并且均取得了非常亮眼的成绩。目前有很多工作都将预训练的大语言模型或者视觉语言模型与自动驾驶任务相结合,简化了原有依赖人工设计的感知、预测和决策组件,充分发挥大模型出色的高级场景理解、常识推理和决策能力。通过利用互联网级别的数据为自动驾驶模型提供更加丰富的语义表示和更加强大的场景泛化能力。基于视觉语言模型的自动驾驶工作可以总结成图1所示的模型范式。图1:自动驾驶任务中不同视觉语言模型使用方法对比。
2025-06-04 17:41:40
705
原创 【无标题AGI关键拼图!(附实现代码)智驾传奇团队再出手:UniVLA 打造机器人通用行动指南】
以任务为中心的潜在动作学习▲图1 | 潜在动作模型的两阶段训练流程©️【深蓝具身智能】编译attention_mask是任务指令的码本,lang_embed是任务指令嵌入,将视频帧、指令嵌入、指令码本输入vq_encode进行VQ-VAE量化编码,然后通过decode解码后得到重建后的图像帧和潜在动作。(这里以UncontrolledDINOLatentActionModel的forward进行说明,ControllableDINOLatentActionModel的forward大致相似)
2025-06-04 10:57:44
518
原创 端到端SOTA!ARTEMIS:结合混合专家(MoE)和自回归轨迹规划的自动驾驶框架
1,研究背景摘要武汉理工大学、香港大学、东南大学、同济大学等高校联合推出ARTEMIS,一种端到端的自动驾驶框架,通过结合自回归轨迹规划方法与混合专家(MoE)模型,在大规模真实环境的NAVSIM数据集上取得显著成绩。©️【深蓝AI】编译本文由paper一作——冯仁炬授权【深蓝AI】发布!
2025-06-03 17:41:17
669
原创 不碰真机也不仿真?(伪代码)伯克利最新:仅用一部手机,生成大规模高质量机器人训练数据!
在具身智能领域,机器人系统的泛化能力始终是核心挑战。当语言模型和视觉模型在海量数据驱动下不断突破边界时,机器人领域却面临着一个残酷现实——数据稀缺性,正成为制约机器人智能化发展的关键瓶颈,这也并非偶然,而是技术路径的必然结果。因为当前主流的人工远程操作数据收集方式,不仅需要高昂的人力成本,还受限于物理机器人的可获取性,难以规模化。物理仿真虽然能够提供高效的数据生成途径,但在模拟复杂对象交互时往往力不从心,需要大量的参数调整和精密的建模工作。
2025-05-30 08:15:00
611
原创 独家复现实录|全球首个「窗口级」VLN系统:实现空中无人机最后一公里配送
1. 目前使用VLM在楼层高度上的估计效果不好,这就导致航点的计算经常容易出错,但比较幸运的是,在多次上上下下往复的调整过程中,最终基本都能找到正确的目标楼层。未来可进一步优化模型轻量化程度,提升复杂动态环境下的鲁棒性,加强多模态信息融合的精准度,探索更多应用场景以提升系统通用性,同时研究如何降低能耗、延长无人机续航时间,更好地满足实际物流配送需求。近期关注到全球首个突破无人机配送 “最后一公里” 技术瓶颈的窗口级 VLN 系统研究,基于对前沿技术的探索与思索,编者对该论文进行了简单的复现。
2025-05-29 08:00:00
578
原创 π0.5泛化真的强吗?(伪代码篇)VLA模型深度解析:从预备知识到训练方法
π0.5 的预训练数据包括来自移动机械臂(MM)、多种环境中的非移动机器人(ME)、实验室条件下收集的跨形态数据(CE)、高级子任务预测(HL)以及多模态网络数据(WD)。在后训练阶段,我们额外使用了语言指令(VI),并省略了实验室的跨形态数据(CE),以使模型专注于移动操作和多样化环境。与此基线模型相比,我们的最佳模型在未接触任何测试家庭数据的情况下,仍能实现类似的性能。第二阶段是后训练阶段,使模型专注于移动操作的低级和高级推理,利用与任务最相关的数据,包括来自人类监督者的语言指令。
2025-05-28 11:55:37
1019
原创 超越UniAD!百度&哈工大X-Driver:基于视觉语言模型的可解释自动驾驶
这种方法提高了决策的可解释性,增强了在不同场景中的泛化能力,并加强了端到端自动驾驶的安全性和稳健性。2)它涉及对导航指令的深入理解和对交通规则的遵守,包括识别交通灯状态,区分标准红、黄、绿信号以及更复杂的变体,如闪烁的黄灯或行人控制的信号。准确的车道检测和决策也至关重要,包括在各种条件下检测车道边界(如褪色标记、被车辆遮挡),区分实线和虚线以进行合法变道,以及识别特殊车道如公交车道、自行车道和转弯专用车道,以确保合法高效驾驶。以CoT中的物体检测为例,如图3所示,模型首先确定物体的位置、运动方向和类别。
2025-05-25 14:25:19
733
原创 深度盘点|无人机端到端技术的演进、核心范式及前沿应用
目前,基于仿真的训练已成为开发复杂端到端策略的主流途径。其核心思想是利用一个可微的物理引擎(模型可以从复杂的刚体动力学到简化的点质量模型 ),将基于物理规则和任务目标定义的损失函数(如跟踪误差、避障、控制平滑度)的梯度直接反向传播,端到端地优化神经网络控制策略的参数。核心挑战依旧围绕“模拟到真实”(Sim2Real)的有效迁移,同时,RL中的状态-动作-奖励设计、SL/IL中专家数据的利用与多模态学习、可微仿真中的梯度优化,以及集成的感知网络架构与安全保障机制,共同构成了当前技术剖析的关键点。
2025-05-22 17:41:12
621
原创 跨本体算什么?卡耐基梅隆大学新作DexWild三界通杀:具身智能终于学会“不挑活”了!
DexWild 的提出,像是一股清流,为机器人泛化难、数据获取难这两个老问题提供了新解法。它打破了传统思路,不再依赖高成本的遥操作或模拟器训练,而是回归到了最自然、最丰富的资源:人类自身的日常动作。通过结合人类操作的多样性与机器人自身的“身体记忆”,DexWild 成功训练出了能适应不同任务、不同场景、甚至不同平台的机器人策略。更重要的是,DexWild 所展现出的能力,不仅仅是“模仿人类”,而是在逐步具备通用操作智慧的雏形——这正是“具身智能”所追求的目标。
2025-05-21 19:17:19
975
原创 机器人学习正在杀死“暴力Scale”!神作Scaling Law用在机器人上,就“不神”了……
然而在新环境中部署这样的模型仍需要收集数据进行微调,他们的目标侧重于训练一个可以直接部署在新环境和不可见对象中的策略,直接消除了微调的需要。b. 当在不同的环境中部署机器人时,例如在不同的家庭中,机器人必须在不同的平台上处理各种对象,这样的一般化是至关重要的。在这些不同的空间条件下成功执行的能力是必不可少的,因为现实世界中的对象很少固定在某个位置,有效的操作需要适应广泛的空间挑战;这突出了其的数据收集策略的高效率,能够zero-shot部署到新环境和对象,这种单任务策略所需的时间和成本是适中的。
2025-05-20 18:54:50
732
原创 一文读懂|大模型智能体互操作协议:MCP/ACP/A2A/ANP
基于此发现结果,选择与用户任务匹配的远程智能体;用户触发任务请求(通常无需理解底层智能体系统的技术细节),客户端智能体接收请求后解析任务意图,通过检索远程智能体发布的能力卡片(Agent Card)匹配最适格的服务提供方。为更清晰理解主流智能体互操作性协议间的差异,下表对四个广泛讨论的框架进行横向对比:模型上下文协议(MCP)、智能体通信协议(ACP)、智能体间协议(A2A)与智能体网络协议(ANP)。然而,如何使智能体更好的调用外部工具,智能体与智能体之间如何有机地协作,仍然没有一个完美的答案。
2025-05-20 17:37:37
780
原创 真实场景成功率超85%!复旦大学提出端到端的零样本目标导航ELA-ZSON
同时,它还配备了一个由大语言模型驱动的“机器人大脑”,能自动决定何时探索、何时建图、何时重规划,整个过程无需人工干预,也不用预训练,在末尾部分展示了该方法的实际部署情况,在不同场景中都取得了非常SOTA表现。同时,框架中的导航过程完全由一个大语言模型(LLM)驱动的智能体控制,实现“指令-感知-规划-执行”的自动闭环,无需人为干预、训练或奖励设计。首先,系统将用户输入的图像或文本指令统一编码为语义向量,然后在场景中采样多个三维点,并计算这些点与目标嵌入之间的相似度。相似度最高的位置即被认为是目标所在。
2025-05-19 17:54:27
908
原创 顶刊收录|IntNet:基于通信驱动的多智能体强化学习框架,显著提高智驾安全性
©️【深蓝AI】编译该成果已被IEEE RAL收录论文题目:IntNet: A Communication-Driven Multi-Agent Reinforcement Learning Framework for Cooperative Autonomous Driving论文作者:Leandro Parada; Kevin Yu; Panagiotis Angeloudis论文地址:https://ieeexplore.ieee.org/document/10844516在动态城市环境中部署互联自动
2025-05-18 21:35:08
754
原创 一台3D打印机就能造机器人?伯克利最新:硬件总成本不到5000美元,全身开源!
在娱乐领域,凭借其模块化和轻量化设计,结合动漫风格的外观和富有表现力的动作设计,它有望成为极具吸引力的动画机器人平台,尤其适合面向年轻观众的娱乐场景。而研究实验室开发的机器人,虽然性能出色,自由度高且扭矩大,例如伯克利仿人机器人(Berkeley Humanoid)、MIT仿人机器人(MIT Humanoid)等,但它们依赖先进制造技术,如CNC加工、激光切割等,这些技术需要专业设备和高超技能,只有少数机构能够掌握,这就使得这些机器人难以在更广泛的范围内推广应用。在仿人机器人的世界里,现状并不乐观。
2025-05-15 17:50:44
655
原创 深度解读 | 国防科大&清华:基于语言指令的空中目标导航GeoNav,成功率超SOTA模型12%!
Step1:给定一个指令后,在分层场景图HSG中检索提及的地标节点;Step2:根据目标与地标节点之间的关系,过滤掉错误边分支;Step3:得到子图分支后,通过目标与其他物体的关系来定位目标;Step4:如果查询失败,自动调整查询条件(例如,放宽关系类型),并递归地扩展搜索范围,以确保检索到最相关的结果。将导航命令转换为一系列查询操作。可用的操作如下:- get_geonode_by_name(name_pattern):根据名称查找地理节点。
2025-05-15 15:41:57
890
原创 VLA落地难?2篇标志性成果解读:如何将DeepSeek R1 成功经验迁移至【具身智能】!
今天我们探讨:如何将DeepSeek的成功经验迁移至视觉-语言-动作(VLA)模型。众所周知,在自然语言处理领域,DeepSeek R1的横空出世,揭示了强化学习(RL)在大模型后训练中的革命性潜力。R1仅用传统方法1/3的计算资源,便实现了与GPT-4o相媲美的多步推理能力。其核心在于:冷启动自进化:摒弃监督微调(SFT)依赖,通过纯RL训练生成初始推理链,利用GRPO算法降低训练成本;
2025-05-14 19:54:26
939
原创 密西根大学新作——LightEMMA:自动驾驶中轻量级端到端多模态模型
然而,它们通常是可解释性有限的黑盒,在关键场景中会引发安全问题,并且它们需要大量、多样化的数据,使其容易受到数据不平衡和稀有性问题的影响。本文认为,在所有模型的提示和工作流程相同的情况下,这些随机失效反映了固有的模型局限性,而不是框架中存在系统缺陷。展示了一个场景,其中真值轨迹为直线行驶,但是预测的轨迹为右转,它未能识别出右侧的障碍物。此外,许多应用涉及商用车部署,而没有可获取的源代码或者详细的实现,这限制了它们在更广泛的研究和协作中的可用性。的商业模型依赖于稳定的网络连接,这在行驶车辆上可能是不可靠的。
2025-05-14 18:00:26
947
原创 首个窗口级无人机配送VLN系统!中科院LogisticsVLN:基于MLLM实现精准投递
系统通过语言理解模块解析用户请求,利用轻量化的VLM完成楼层定位、目标窗口识别,并结合深度辅助机制进行视角选择与导航控制,最终实现精准投递。为了测试这个系统是否真的有效,研究团队在一个逼真的虚拟城市环境里,设计了一个专门的数据集,模拟了各种建筑、不同风格的用户请求和复杂的送货场景。一旦选定新的视角,系统会在图像上标记若干探索方向,结合深度信息估算每个方向的安全行进距离,并将这些信息连同任务描述送入动作选择 VLM,选择最佳的移动方向与距离,从而实现连续、高效且避障的探索行为。
2025-05-13 17:43:50
1229
原创 降低60.6%碰撞率!复旦大学&地平线CorDriver:首次引入「走廊」增强端到端自动驾驶安全性
并忽略区域外的点。第一涉及解决约束车辆行为的有效表征缺失问题,通过在数据集中标注走廊、设计网络架构和制定损失函数,将走廊学习整合到端到端驾驶的多任务流程中。然而,考虑到驾驶环境的高度结构化特性,如车道和智能体边界框,使用矩形作为走廊表征是一种简单有效的方法。通过扩展优化的可微分性,使优化后的轨迹能无缝地在端到端学习框架中训练,从而提高安全性和可解释性。本文提出CorDriver方法,通过走廊表征增强了端到端自动驾驶的安全性,将走廊预测作为约束融入轨迹优化,在提升安全性的同时增强了可解释性。
2025-05-12 17:33:58
1150
原创 无需大规模重训练!GraspCorrect:VLM赋能机器人抓取校正,抓取成功率提升18.3%
值得关注的是,Ke等人最新提出的三维扩散执行器(3D Diffuser Actor),通过融合扩散策略与三维场景表征,实现了机器人状态条件动作分布空间的直接学习,在多项操作任务中刷新了性能记录。相较之下,采用基础的图像融合技术反而能生成精确可靠的目标状态合成图像,该方法在保持目标物体结构完整性的同时,精准维持对操作成功率至关重要的空间位姿关系。具体而言,在RLBench测试平台中,积木堆叠(68.3%)、插钉入孔(65.6%)和形状分类(44.0%)等场景下的任务成功率,仍显著低于80%的基准线。
2025-05-11 18:41:15
979
原创 RSS 2025|斯坦福提出「统一视频行动模型UVA」:实现机器人高精度动作推理
以UMI杯子排列数据为例,UVA预测的行动与真实行动的误差较小。与视觉惯性SLAM系统相比,虽然UVA的误差略高,但仍在可接受范围内,并且具有更好的泛化能力,有望成为难以校准且失败率高的SLAM的替代方案。只关注行动的方法,像跳过视频生成的那些,虽然计算简单,但错失了视频带来的场景动态信息,容易过度依赖行动历史,在面对视觉干扰时就“露怯”了。它就像一位“协调大师”,致力于同时处理视频和行动信息,精准把握视觉与行动之间的潜在联系,让机器人在理解任务时更加“聪明”,还能在推理时快速做出行动预测。
2025-05-08 17:32:06
814
原创 即插即用!长安汽车&复旦提出LMPOcc:长期记忆先验实现占用预测任务新SOTA
在基于视觉的自动驾驶感知算法当中,3D语义占用预测任务可以出色的对静态场景和动态目标同时进行建模,实现细粒度的场景理解,目前受到了来自学术界和工业界的广泛关注。©️【深蓝AI】编译论文题目:ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy论文作者:论文地址:https://arxiv.org/pdf/2502.05450。
2025-05-06 17:52:58
698
原创 RSS‘25|CMU提出统一空中操作框架:以末端执行器为中心,无人机实现高精度遥操作
论文题目:Flying Hand: End-Effector-Centric Framework for Versatile Aerial Manipulation Teleoperation and Policy Learning论文作者:Guanqi He、Xiaofeng Guo、Luyi Tang、Yuanhang Zhang、Mohammadreza Mousaei、Jiahe Xu、Junyi Geng、Sebastian Scherer、Guanya Shi。
2025-04-28 17:34:29
869
原创 开源|上海AILab:自动驾驶仿真平台LimSim Series,兼容端到端/知识驱动/模块化技术路线
随着自动驾驶技术快速发展,有效的仿真环境成为验证与增强这些系统的关键。来自上海人工智能实验室的研究团队推出了LimSim Series——一个革命性的自动驾驶仿真平台,它巧妙解决了行业面临的三大挑战:仿真精度与持续时间的平衡、功能性与实用性的冲突,以及评估系统的全面性。该平台采用兴趣区域创新性地优化计算资源,支持模块化、端到端及知识驱动型自动驾驶系统,并通过多维度评估指标提供深入系统性能分析。让一起探索LimSim Series如何加速自动驾驶技术的迭代与突破!©️【深蓝AI】编译。
2025-04-27 17:37:15
1152
原创 IEEE综述 | 车道拓扑推理20年演进:从程序化建模到车载传感器
车道拓扑推理技术在高精(HD)建图和自动驾驶应用中发挥着至关重要的作用。虽然近年来在该领域中取得了重大进展,但是很少有文献综合概述这些工作。本项调研系统性地回顾了车道拓扑推理方法的演变和现状,将其分为三种主要范式:基于程序化建模的方法、基于航拍图像的方法和基于车载传感器的方法。本文分析了从早期基于规则的方法到现代基于学习的解决方案的进展,这些基于学习的解决方案利用了transformers、图神经网络(GNNs)和其它深度学习架构。
2025-04-24 17:36:02
902
原创 20亿参数仅0.4GB,能耗骤降90%!微软开源全球首个2B参数「原生1.58bit」大模型
BitNet b1.58 2B4T 不仅是一款模型,更是一场范式革命。它让 AI 走进资源受限的边缘设备,助力中小企业与个人开发者拥抱先进技术;能耗降低 90%,为绿色 AI 树立标杆;开源生态降低技术门槛,激发全球创新。这款模型质疑了全精度权重的必要性,或将引领模型压缩新潮流。未来,BitNet b1.58 有望向更大规模扩展,支持多语言和多模态任务,结合专用硬件释放更大潜力。尽管在知识任务和硬件适配上仍有改进空间,其创新性已足以震撼行业。
2025-04-22 15:57:28
959
原创 Science子刊|浙大高飞团队实现无人机「完全自主特技飞行」,成功率100%碾压人类顶尖飞手!
导读特技飞行涉及复杂的飞行动作,这些动作通常在常规飞行操作中不会执行,因为它们需要不稳定的姿态,本质上具有危险性。然而,这些空中特技对许多飞行动物的生存至关重要,往往是本能行为。例如,雀鹰和猎鹰能够通过垂直或倒置飞行迅速改变速度和方向,以追捕猎物或避开障碍物。蝙蝠擅长在空中翻转并倒挂在洞穴顶部,而乌鸦则展示令人印象深刻的特技来吸引同类。对这些物种而言,特技动作提供了在复杂环境中增强适应性和敏捷性的关键生存技能,用于捕食、栖息和交配。©️【深蓝AI】编译。
2025-04-21 17:58:09
1493
俞刚-物体检测的过去、现在和未来.pdf
2020-09-07
矩阵指数与对数运算的实现
2014-10-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人