- 博客(84)
- 收藏
- 关注
原创 【论文阅读】X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
将NLP领域的Soft Prompt Learning思想借鉴到机器人中,虽然不是架构创新(比如Transformer),但是能够以高效的方式解决机器人领域最关注的。因为针对目前已经训练好的大模型,需要使其适配到不同的垂类场景中。如果采用普通微调的方式,会针对所有参数进行调整,cost很大,而且分布变了之后可能会造成。因此提出了软提示学习的方式,在部署垂类应用时,只需要在本地存储很少量的soft prompt即可。X-VLA 将这一思想迁移到具身智能体领域,把“任务类型”换成了“机器人身份”,同样奏效。
2025-11-17 00:06:10
257
原创 【论文阅读】PhotoBot: Reference-Guided Interactive Photography via Natural Language
PhotoBot 通过“语言理解 + 参考图像推荐 + 语义对齐 + 相机控制”的闭环,实现了能听懂你想要什么、给你建议、然后帮你拍出来的智能机器人摄影师。
2025-11-11 19:09:17
415
原创 【论文阅读】π0 : A Vision-Language-Action Flow Model for General Robot Control
从标准正态分布线性去噪。预训练的目标是构建一个基础模型(base model),目标是广泛的泛化性(broad capabilities and generalization)。cache的原理:cache的是经过了线性变换(k = Wk, v = Wv)后的keys and values,节约的也是线性变换的时间。高质量数据的作用是效率和鲁棒,低质量数据的作用是让模型能够从错误中恢复(recover from mistakes)。预训练模型采用PaliGemma,是一个3B的VLM模型。
2025-10-15 17:41:17
840
原创 【调研】视觉-语言 导航 VLN
视觉-语言导航(Vision-and-Language Navigation, VLN)是具身智能(Embodied AI)领域中的一个核心且极具挑战性的研究方向。其核心任务是:开发一个能够理解自然语言指令的智能体(Agent),并利用其视觉感知能力,在复杂的、未曾见过的三维环境中导航至指定目标位置 (Result 1-1, 1-4)。
2025-09-16 17:05:13
920
原创 自动驾驶感知范式迁移:从BEV/向量化到高斯建模
本质: 这个过程就像一个艺术家在用无数个可塑形的、可变色的“智能粘土球”(高斯体)来雕刻一个与现实一模一样的模型。核心思想: 不再试图填充一个完整的网格,而是使用一组可学习的、稀疏的“查询向量”(Object Queries)作为“探针”,主动去图像中寻找并“提炼”与特定物体相关的信息。本质: 这是一种更有针对性的提炼。最终得到的是一组包含了物体信息的向量,而不是一个完整的场景地图。核心思想: 不去抽象信息,而是尝试用一组带有丰富属性的、可微的、显式的3D基元(即3D高斯体)去直接模拟和重建整个三维世界。
2025-08-29 11:34:21
917
原创 自动驾驶导航信号使用方式调研
本文调研在给定导航信号后,如何在端到端架构下,利用导航信息引导轨迹生成。目前主流的方案可以分为2种。一种是将导航作为“前置引导”深度融入轨迹生成过程(导航前置型);另一种则是将导航作为“后置评价”标准来筛选最优轨迹(导航后置型)。
2025-08-20 20:30:40
1091
原创 【论文阅读】AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control
之前的方法是在某场景下,从动作库中选出一条动作流(select the appropriate motion for the character),然后设计跟随目标函数(carefully designed objective functions),让动画人物进行跟随。在计算机动画领域(注意:该论文并非典型的具身智能领域),如何让动画人物的动作更拟人(life-like)一直是很关键的问题。RL奖励函数是什么?
2025-07-23 11:21:17
1004
原创 【论文精读】GR00T N1: An open foundation model for generalist humanoid robots
由于本体的配置差异很大,比如传感器配置,硬件形态(夹爪,灵巧手),运动学模型(双足/四足),而且数据缺乏统一的标准,导致不同本体的数据难以整合和复用。:大语言模型,多模态大模型领域均有基座模型。比如大语言模型的GPT-3/4,多模态大模型的CLIP。是具备多任务能力的大模型,通常可以few-shot甚至zero-shot到未见过的任务上。是在训练阶段中,预训练的产物。一般需要进行微调才能适配下游任务。比如Bert-base,需要微调后才能用于情感分析等任务。
2025-07-04 14:30:04
1165
原创 机器人行业之我看
传统方案依赖精确的动力学模型和复杂的控制理论(如MPC),在特定环境中是成功的(如自动驾驶),但是现实世界过于复杂和不确定,导致该方法鲁棒性不足。小脑的训练数据目前相当匮乏,对于物理世界的理解仍不充分。举例:别人向我扔飞盘,大脑输出“接住它”的指令,小脑输出手脚的协同控制指令,用什么力度,在什么位置接住等。比如,特斯拉Optimus的数据量大约在百万小时级别,能够让Optimus在工厂工作。大脑:处理语言和视觉信息,理解环境和指令,给出高级决策。小脑:基于大脑的高级决策,生成具体的控制指令。
2025-06-27 11:25:12
952
原创 【论文精读】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
在具身智能领域,从专家示范中进行策略学习较难。
2025-06-23 16:25:38
1076
原创 【论文精读】BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds
传统基于优化的方法非常消耗算力 a significant computational burden for online planning。相比之下,现在有四足机器人在这方面有很多研究,但是他们将足建模为点。对于双足机器人来说,足需要建模为多边形polygon。网页链接:https://why618188.github.io/beamdojo。双足机器人在非平坦路面的行走很有挑战性,因为要求行走到安全的区域,并且保持稳定。团队:上海AI lab,上海交通大学,浙江大学等。
2025-06-11 14:39:11
867
原创 【论文精读】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
已知:目前VLM在VQA,推理等方面有强大的能力,可以给出机器人的高阶指令high-level commands,需要各种controller去给出指令,无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands。问题:想要机器人能够获得足够强大的能力,暴力的方法就是采集足够大量的数据 millions of robot interaction trials,但是从成本角度考虑并不现实。针对机器人动作数据,限制给出的词表范围,防止输出不可执行的指令。
2025-06-08 01:02:31
1104
原创 【论文精读】Improving Behavious with RL fine-tuning for Autonomous driving
RL过程能够显著提升可靠性significantly improves the reliability of the agent behavious。目前LLM采用的范式“先大规模预训练,再强化学习微调”被借鉴到这篇文章中了。采用Waymomer框架。
2025-03-31 21:52:56
1270
原创 【论文精读】Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
这个预训练跟deepseek r1一样,都是让模型先学一些简单的专家分布,作为强化学习的冷启动,否则直接用强化学习,探索到专家分布的难度太大。但是上述误差是只有达到一定阈值时才算,没有达到阈值时就没有,所以是稀疏的。由于上述奖励过于稀疏,因此需要一些辅助奖励。模仿学习存在的问题已经越来越被广泛认识到。目前强化学习也存在问题。
2025-03-04 16:19:27
958
原创 MoE演变过程
因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和。这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。
2025-02-17 20:36:57
450
原创 大语言模型入门
找到常出现的编码对,比如(125 67),就把它合成为一个新编码符号(比如301),然后再看有没有新的编码对,比如(301 786),那就再把这个合成新的。一种用于大模型的策略优化算法,通过分组比较,动态调整学习策略,使训练更高效和稳定。因为输入的是对话,所以需要对对话进行处理,增加虚拟独白部分,分别在最前和最后,而且要指明是user还是assistant。给模型输入一段没见过的东西,它会沿着继续预测下去,本质上是在概率性的前提下进行最佳预测。如果给base输入一句话,它不会回答,只会续写。
2025-02-13 22:19:48
1675
原创 【论文精读】Taming Transformers for High-Resolution Image Synthesis
CNN具有归纳偏置(https://zhuanlan.zhihu.com/p/537658409),主要是局部性和平移不变性,在这2个先验信息前提下,CNN学习速度更快,因此在小样本的图片处理任务中优于Transformer。这篇论文就是将CNN和Transformer结合起来,将CNN的归纳偏置的性能和Transformer的表达能力相结合,用于高清的图片生成。然后用Transformer建模连续多张图片的index,并推理下一张的index,然后进行解码即可。
2025-02-05 22:17:32
613
原创 【论文精读】MotionLM:Waymo新作
该文章的一个主要创新点是把每一个时刻的位移认为是vocabulary运动序列的一个运动token(motion token)。采用teacher-force的方法,每个回归出来的点都是加在上一时刻的真值上,得到这个时刻的输出,模型收敛更快。简介:采用自回归的方式做轨迹生成,能够更好地建模交互,且避免模态坍缩,在数据集达到了SOTA。给定context,模型输出13x13的分类分布,然后采样得到x和y方向的action。该模型并不是直接输出轨迹,而是输出分类结果,从而滚动重建轨迹。kmeans聚类成6条。
2025-01-14 15:19:12
630
原创 【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model
团队:地平线时间:代码:简介:PETR是query-based方法,但是为了实现特征融合,进行了全局注意力机制,导致高计算量。image通过backbone和FPN,得到多尺度特征,略。这一层是为了提取这一帧新出现的障碍物。根据SparseDrive在附录的信息,初始化900组特征和anchor,然后选出打分最高的300组highest confidence instances给到multi-frame layers。这一层拿到sigle frame layer输出的300组障碍物信息,然后再从mem
2024-07-25 11:07:21
926
1
原创 【论文精读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion
这一篇论文里详细讲解了deformable aggregation,在后续的sparsedrive中也用到了这个模块。sparsedrive的思想和本文基本一致。
2024-07-24 15:06:43
750
原创 【论文精读】Fully Sparse 3D Occupancy Prediction
团队:南京大学,上海人工智能实验室时间:2023年12月代码:https://github.com/MCG-NJU/SparseOcc。
2024-07-22 19:48:28
1467
2
原创 【论文精读】SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation
团队:清华大学,地平线投稿会议:暂时未知,挂在rxiv代码链接:https://github.com/swc-17/SparseDrive开环测试数据集:nuScenes。
2024-07-17 18:33:40
2460
4
原创 【论文精读】Exploring the Causality of End-to-End Autonomous Driving
团队:百度代码:https://github.com/bdvisl/DriveInsight论文思想简述:这篇论文并不是提出SOTA模型,而是提出了一些的方法。
2024-07-11 14:51:44
955
3
原创 深度学习进阶
TransformerMHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。CNN卷积核权值共享,因此具有平移不变性,减少参数量为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。激活函数sigmoid经常用于分类场景,作为概率输出relu经常作为隐藏层激活函数
2024-07-10 13:40:58
405
原创 【论文精读】PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving
团队:英伟达会议:CVPR2024。
2024-06-18 16:58:38
965
原创 【论文阅读】SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving
论文链接:https://arxiv.org/pdf/2404.06892团队:迈驰、中科大。
2024-06-12 21:00:03
364
1
原创 【论文精读】WHY GRADIENT CLIPPING ACCELERATES TRAINING : A THEORETICAL JUSTIFICATION FOR ADAPTIVITY
MIT的论文2020年。
2024-05-28 18:37:57
325
原创 重要结论:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
论文链接:https://arxiv.org/pdf/2312.03031。
2024-05-17 17:04:49
1070
原创 深度学习基础
但是要注意:噪音背景需要和清晰的音频一样diverse,不能音频有1000条,噪音只有1条,要不然可能过拟合。为了能够使其适用于TaskB,需要对模型进行进一步训练,这个过程取决于taskB的样本数量。make similar的方法包括数据合成。比如含有噪音的音频。迁移学习是原本适用于taskA的模型同样应用在taskB。训练集和验证集的数据分布不同。模型没见过,没学习到;该方法在音频识别种效果很好。
2024-02-12 21:26:52
1279
原创 shell命令行学习
h表示human-readable format,人类可读的大小。s表示summrize,对这个文件夹下所有的目录进行统计。设置max-depth,就只统计往下几级目录。其中du表示disk usage。
2024-01-20 11:42:59
970
原创 【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations
院校:德国的图宾根大学网站:https://www.katrinrenz.de/plant。
2023-11-05 17:14:16
843
原创 卷积与反卷积
可参考:https://zhuanlan.zhihu.com/p/48501100《反卷积(Transposed Convolution)详细推导》反卷积/转置卷积的操作是在《Visualizing and Understanding Convolutional Networks》中提出来的。设输入维度为i x i,卷积核大小为k x k,padding为p,strides为s,则输出维度为 (i - k + 2p) / s +1。i - k是不考虑padding的情况下,卷积核能纵向/横向移动的次数。
2023-11-05 13:22:17
384
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅