自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(84)
  • 收藏
  • 关注

原创 【论文阅读】X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

将NLP领域的Soft Prompt Learning思想借鉴到机器人中,虽然不是架构创新(比如Transformer),但是能够以高效的方式解决机器人领域最关注的。因为针对目前已经训练好的大模型,需要使其适配到不同的垂类场景中。如果采用普通微调的方式,会针对所有参数进行调整,cost很大,而且分布变了之后可能会造成。因此提出了软提示学习的方式,在部署垂类应用时,只需要在本地存储很少量的soft prompt即可。X-VLA 将这一思想迁移到具身智能体领域,把“任务类型”换成了“机器人身份”,同样奏效。

2025-11-17 00:06:10 257

原创 【论文阅读】PhotoBot: Reference-Guided Interactive Photography via Natural Language

PhotoBot 通过“语言理解 + 参考图像推荐 + 语义对齐 + 相机控制”的闭环,实现了能听懂你想要什么、给你建议、然后帮你拍出来的智能机器人摄影师。

2025-11-11 19:09:17 415

原创 【论文阅读】π0 : A Vision-Language-Action Flow Model for General Robot Control

从标准正态分布线性去噪。预训练的目标是构建一个基础模型(base model),目标是广泛的泛化性(broad capabilities and generalization)。cache的原理:cache的是经过了线性变换(k = Wk, v = Wv)后的keys and values,节约的也是线性变换的时间。高质量数据的作用是效率和鲁棒,低质量数据的作用是让模型能够从错误中恢复(recover from mistakes)。预训练模型采用PaliGemma,是一个3B的VLM模型。

2025-10-15 17:41:17 840

原创 【调研】视觉-语言 导航 VLN

视觉-语言导航(Vision-and-Language Navigation, VLN)是具身智能(Embodied AI)领域中的一个核心且极具挑战性的研究方向。其核心任务是:开发一个能够理解自然语言指令的智能体(Agent),并利用其视觉感知能力,在复杂的、未曾见过的三维环境中导航至指定目标位置 (Result 1-1, 1-4)。

2025-09-16 17:05:13 920

原创 自动驾驶感知范式迁移:从BEV/向量化到高斯建模

本质: 这个过程就像一个艺术家在用无数个可塑形的、可变色的“智能粘土球”(高斯体)来雕刻一个与现实一模一样的模型。核心思想: 不再试图填充一个完整的网格,而是使用一组可学习的、稀疏的“查询向量”(Object Queries)作为“探针”,主动去图像中寻找并“提炼”与特定物体相关的信息。本质: 这是一种更有针对性的提炼。最终得到的是一组包含了物体信息的向量,而不是一个完整的场景地图。核心思想: 不去抽象信息,而是尝试用一组带有丰富属性的、可微的、显式的3D基元(即3D高斯体)去直接模拟和重建整个三维世界。

2025-08-29 11:34:21 917

原创 自动驾驶导航信号使用方式调研

本文调研在给定导航信号后,如何在端到端架构下,利用导航信息引导轨迹生成。目前主流的方案可以分为2种。一种是将导航作为“前置引导”深度融入轨迹生成过程(导航前置型);另一种则是将导航作为“后置评价”标准来筛选最优轨迹(导航后置型)。

2025-08-20 20:30:40 1091

原创 【论文阅读】AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control

之前的方法是在某场景下,从动作库中选出一条动作流(select the appropriate motion for the character),然后设计跟随目标函数(carefully designed objective functions),让动画人物进行跟随。在计算机动画领域(注意:该论文并非典型的具身智能领域),如何让动画人物的动作更拟人(life-like)一直是很关键的问题。RL奖励函数是什么?

2025-07-23 11:21:17 1004

原创 【论文精读】GR00T N1: An open foundation model for generalist humanoid robots

由于本体的配置差异很大,比如传感器配置,硬件形态(夹爪,灵巧手),运动学模型(双足/四足),而且数据缺乏统一的标准,导致不同本体的数据难以整合和复用。:大语言模型,多模态大模型领域均有基座模型。比如大语言模型的GPT-3/4,多模态大模型的CLIP。是具备多任务能力的大模型,通常可以few-shot甚至zero-shot到未见过的任务上。是在训练阶段中,预训练的产物。一般需要进行微调才能适配下游任务。比如Bert-base,需要微调后才能用于情感分析等任务。

2025-07-04 14:30:04 1165

原创 机器人行业之我看

传统方案依赖精确的动力学模型和复杂的控制理论(如MPC),在特定环境中是成功的(如自动驾驶),但是现实世界过于复杂和不确定,导致该方法鲁棒性不足。小脑的训练数据目前相当匮乏,对于物理世界的理解仍不充分。举例:别人向我扔飞盘,大脑输出“接住它”的指令,小脑输出手脚的协同控制指令,用什么力度,在什么位置接住等。比如,特斯拉Optimus的数据量大约在百万小时级别,能够让Optimus在工厂工作。大脑:处理语言和视觉信息,理解环境和指令,给出高级决策。小脑:基于大脑的高级决策,生成具体的控制指令。

2025-06-27 11:25:12 952

原创 【论文精读】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

在具身智能领域,从专家示范中进行策略学习较难。

2025-06-23 16:25:38 1076

原创 【论文精读】BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

传统基于优化的方法非常消耗算力 a significant computational burden for online planning。相比之下,现在有四足机器人在这方面有很多研究,但是他们将足建模为点。对于双足机器人来说,足需要建模为多边形polygon。网页链接:https://why618188.github.io/beamdojo。双足机器人在非平坦路面的行走很有挑战性,因为要求行走到安全的区域,并且保持稳定。团队:上海AI lab,上海交通大学,浙江大学等。

2025-06-11 14:39:11 867

原创 【论文精读】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

已知:目前VLM在VQA,推理等方面有强大的能力,可以给出机器人的高阶指令high-level commands,需要各种controller去给出指令,无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands。问题:想要机器人能够获得足够强大的能力,暴力的方法就是采集足够大量的数据 millions of robot interaction trials,但是从成本角度考虑并不现实。针对机器人动作数据,限制给出的词表范围,防止输出不可执行的指令。

2025-06-08 01:02:31 1104

原创 【论文精读】Improving Behavious with RL fine-tuning for Autonomous driving

RL过程能够显著提升可靠性significantly improves the reliability of the agent behavious。目前LLM采用的范式“先大规模预训练,再强化学习微调”被借鉴到这篇文章中了。采用Waymomer框架。

2025-03-31 21:52:56 1270

原创 【论文精读】Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

这个预训练跟deepseek r1一样,都是让模型先学一些简单的专家分布,作为强化学习的冷启动,否则直接用强化学习,探索到专家分布的难度太大。但是上述误差是只有达到一定阈值时才算,没有达到阈值时就没有,所以是稀疏的。由于上述奖励过于稀疏,因此需要一些辅助奖励。模仿学习存在的问题已经越来越被广泛认识到。目前强化学习也存在问题。

2025-03-04 16:19:27 958

原创 强化学习入门

去掉Value model(Critic model),无需额外的价值函数。

2025-02-20 19:51:24 514

原创 MoE演变过程

因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和。这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。

2025-02-17 20:36:57 450

原创 大语言模型入门

找到常出现的编码对,比如(125 67),就把它合成为一个新编码符号(比如301),然后再看有没有新的编码对,比如(301 786),那就再把这个合成新的。一种用于大模型的策略优化算法,通过分组比较,动态调整学习策略,使训练更高效和稳定。因为输入的是对话,所以需要对对话进行处理,增加虚拟独白部分,分别在最前和最后,而且要指明是user还是assistant。给模型输入一段没见过的东西,它会沿着继续预测下去,本质上是在概率性的前提下进行最佳预测。如果给base输入一句话,它不会回答,只会续写。

2025-02-13 22:19:48 1675

原创 【论文精读】Taming Transformers for High-Resolution Image Synthesis

CNN具有归纳偏置(https://zhuanlan.zhihu.com/p/537658409),主要是局部性和平移不变性,在这2个先验信息前提下,CNN学习速度更快,因此在小样本的图片处理任务中优于Transformer。这篇论文就是将CNN和Transformer结合起来,将CNN的归纳偏置的性能和Transformer的表达能力相结合,用于高清的图片生成。然后用Transformer建模连续多张图片的index,并推理下一张的index,然后进行解码即可。

2025-02-05 22:17:32 613

原创 【论文精读】MotionLM:Waymo新作

该文章的一个主要创新点是把每一个时刻的位移认为是vocabulary运动序列的一个运动token(motion token)。采用teacher-force的方法,每个回归出来的点都是加在上一时刻的真值上,得到这个时刻的输出,模型收敛更快。简介:采用自回归的方式做轨迹生成,能够更好地建模交互,且避免模态坍缩,在数据集达到了SOTA。给定context,模型输出13x13的分类分布,然后采样得到x和y方向的action。该模型并不是直接输出轨迹,而是输出分类结果,从而滚动重建轨迹。kmeans聚类成6条。

2025-01-14 15:19:12 630

原创 【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

团队:地平线时间:代码:简介:PETR是query-based方法,但是为了实现特征融合,进行了全局注意力机制,导致高计算量。image通过backbone和FPN,得到多尺度特征,略。这一层是为了提取这一帧新出现的障碍物。根据SparseDrive在附录的信息,初始化900组特征和anchor,然后选出打分最高的300组highest confidence instances给到multi-frame layers。这一层拿到sigle frame layer输出的300组障碍物信息,然后再从mem

2024-07-25 11:07:21 926 1

原创 【论文精读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

这一篇论文里详细讲解了deformable aggregation,在后续的sparsedrive中也用到了这个模块。sparsedrive的思想和本文基本一致。

2024-07-24 15:06:43 750

原创 【论文精读】Fully Sparse 3D Occupancy Prediction

团队:南京大学,上海人工智能实验室时间:2023年12月代码:https://github.com/MCG-NJU/SparseOcc。

2024-07-22 19:48:28 1467 2

原创 自动驾驶目标检测常见Metrics

简述:A平均是指在不同recall的平均,m平均是指在不同class的平均。

2024-07-18 20:16:18 854

原创 【论文精读】SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

团队:清华大学,地平线投稿会议:暂时未知,挂在rxiv代码链接:https://github.com/swc-17/SparseDrive开环测试数据集:nuScenes。

2024-07-17 18:33:40 2460 4

原创 【论文精读】Exploring the Causality of End-to-End Autonomous Driving

团队:百度代码:https://github.com/bdvisl/DriveInsight论文思想简述:这篇论文并不是提出SOTA模型,而是提出了一些的方法。

2024-07-11 14:51:44 955 3

原创 自动驾驶论文总结

如何理解agent centric。

2024-07-10 15:04:06 487

原创 深度学习进阶

TransformerMHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。CNN卷积核权值共享,因此具有平移不变性,减少参数量为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。激活函数sigmoid经常用于分类场景,作为概率输出relu经常作为隐藏层激活函数

2024-07-10 13:40:58 405

原创 torch_scatter::scatter_max 转onnx再转tensorrt踩坑记录

方法选择。

2024-06-27 14:02:08 1168

原创 【论文精读】PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving

团队:英伟达会议:CVPR2024。

2024-06-18 16:58:38 965

原创 计算机领域主要论文及投稿时间

两年一次,跟ICCV正好错开。两年一次,跟ECCV正好错开。2013年开始,每年一次。

2024-06-16 18:36:29 1005

原创 【论文阅读】SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving

论文链接:https://arxiv.org/pdf/2404.06892团队:迈驰、中科大。

2024-06-12 21:00:03 364 1

原创 【论文精读】WHY GRADIENT CLIPPING ACCELERATES TRAINING : A THEORETICAL JUSTIFICATION FOR ADAPTIVITY

MIT的论文2020年。

2024-05-28 18:37:57 325

原创 重要结论:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?

论文链接:https://arxiv.org/pdf/2312.03031。

2024-05-17 17:04:49 1070

原创 map net收集

toc()

2024-03-31 17:45:16 747

原创 深度学习基础

但是要注意:噪音背景需要和清晰的音频一样diverse,不能音频有1000条,噪音只有1条,要不然可能过拟合。为了能够使其适用于TaskB,需要对模型进行进一步训练,这个过程取决于taskB的样本数量。make similar的方法包括数据合成。比如含有噪音的音频。迁移学习是原本适用于taskA的模型同样应用在taskB。训练集和验证集的数据分布不同。模型没见过,没学习到;该方法在音频识别种效果很好。

2024-02-12 21:26:52 1279

原创 从MultiPath到WayFormer

假设预测30步,一共有16条anchor轨迹,那么需要预测。

2024-01-21 23:52:43 1121 1

原创 shell命令行学习

h表示human-readable format,人类可读的大小。s表示summrize,对这个文件夹下所有的目录进行统计。设置max-depth,就只统计往下几级目录。其中du表示disk usage。

2024-01-20 11:42:59 970

原创 Mac开发指南

ubuntu用apt-get。

2023-11-20 13:58:16 303

原创 【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

院校:德国的图宾根大学网站:https://www.katrinrenz.de/plant。

2023-11-05 17:14:16 843

原创 卷积与反卷积

可参考:https://zhuanlan.zhihu.com/p/48501100《反卷积(Transposed Convolution)详细推导》反卷积/转置卷积的操作是在《Visualizing and Understanding Convolutional Networks》中提出来的。设输入维度为i x i,卷积核大小为k x k,padding为p,strides为s,则输出维度为 (i - k + 2p) / s +1。i - k是不考虑padding的情况下,卷积核能纵向/横向移动的次数。

2023-11-05 13:22:17 384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除