xiaomu_347
这个作者很懒,什么都没留下…
展开
-
VLA 算法现状概述
模型是一类将视觉信息和语言指令结合,用于机器人动作控制的端到端模型。其核心思想是借助大规模预训练的视觉-语言模型(VLM)与机器人示范数据,使机器人能够从一段图像序列和自然语言指令直接输出控制动作序列。这类模型通常包括:①(提取图像特征),②(提取指令语义),③(如通过 FiLM 将语言嵌入视觉特征),以及④(将融合后的特征解码为动作)。例如,OpenVLA 采用 LLaMA2 为语言骨干,结合 DINOv2、SigLIP 双通道视觉编码器,将图像和指令拼接成输入序列,输出下一个动作标记;原创 2025-05-26 22:33:04 · 83 阅读 · 0 评论 -
多模态学习笔记
通过结合几何投影、深度学习特征对齐和中间表示的统一建模,可以高效实现图像与3D传感器数据的跨模态对齐,为自动驾驶、机器人感知等场景提供可靠的多模态融合基础。对于图像与激光雷达(LiDAR)点云、毫米波雷达等3D传感器数据的跨模态对齐,需针对数据特性设计特殊方法。通过交叉注意力机制(Cross-Attention),让两种模态的特征在细粒度上动态交互,捕捉局部对齐关系(如物体-单词对应)。通过构建正负样本对,在共享嵌入空间中拉近匹配的图像-文本对(正样本),推远不匹配的对(负样本),实现全局特征对齐。原创 2025-05-21 16:14:51 · 184 阅读 · 0 评论 -
nuscenes_devkit工具
nuScenes devkit 是由新加坡国立大学和 Motional 团队联合发布的自动驾驶数据集 nuScenes 的官方开发工具包。原创 2025-05-10 16:39:13 · 76 阅读 · 0 评论 -
2024-2025自动驾驶技术演进与产业破局的深度实践——一名自动驾驶算法工程师的年度技术总结与行业洞察
2024年是自动驾驶行业从"技术验证"迈向"商业化落地"的关键转折点原创 2025-01-23 15:50:27 · 1593 阅读 · 0 评论 -
TVM框架学习笔记
tvm模型部署推理原创 2025-01-23 14:32:31 · 210 阅读 · 0 评论 -
智驾大模型应用
过去的十年自动驾驶在学术界和工业界都得到了快速发展。然而,其有限的可解释性仍然是一个悬而未决的重大问题,严重阻碍了自动驾驶汽车的商业化和进一步发展。以前用小语言模型的方法,由于缺乏灵活性、泛化能力和鲁棒性而未能解决这个问题。最近,多模态大语言模型(LLM)因其通过文本处理和推理非文本数据(如图像和视频)的能力而受到研究界的极大关注。原创 2025-01-02 15:48:24 · 162 阅读 · 0 评论 -
从VLM到VLA概论
智驾视觉大模型原创 2024-12-27 17:43:07 · 846 阅读 · 0 评论 -
深度学习数据标注闭环
数据闭环是指运用AI大模型等新技术,对数据挖掘、自动标注、模型训练、仿真测试进行升级,让智驾数据运用从小规模且重人工的方式,转化为可大规模运用且高自动化运转的方式,实现智驾数据处理更流畅、智驾功能体验更佳。数据闭环的主要流程包括数据采集是数据闭环的起点,可以依靠传感器技术,通过道路采集车、量产车、车主数据贡献等方式进行数据采集,此外多模态大模型技术也能够通过场景生成进行数据采集,丰富数据库的内容,解决Corner case的问题。原创 2024-09-07 22:40:35 · 139 阅读 · 0 评论 -
Maptr|maptrv2网络结构
由于点和方向边在起始点未知的情况下其实是能对同一地图元素够成很多种表达的,对此文章对一个元素穷举了其所有可能存在的等效表达并将其运用到的实例匹配中去,这样可以有效避免一些特意场景下的歧义情况(如对象车道中间的分割线或是人行横道的多边形区域 )。作者提出一种统一的基于排列的建模方法,即将高清地图中的元素(线条状或是多边形的)构建为由一组点和带方向边的组合,避免地图元素模糊定义并且可以简化学习。上文提到对于地图元素的建模是点和带方向边的组合,那么这些组合是如何与GT进行匹配的呢?原创 2024-10-22 22:20:13 · 162 阅读 · 0 评论 -
UniAD-端到端自动驾驶大模型学习笔记
UniAD是2023年由中科院和清华大学团队提出的一篇关于自主驾驶的研究论文,重点探讨了如何通过规划导向的学习框架来解决传统端到端自主驾驶中感知、预测和决策分离的问题。其主要贡献是提出了一种新的,以更好地将感知、规划和控制整合在一起,从而提高端到端自主驾驶的性能和可靠性。原创 2024-10-20 16:34:16 · 199 阅读 · 0 评论 -
自动驾驶目前端对端算法现状
首先,传统智驾方案和“两段式”端到端方案都是依靠人为定义的规则在传递显性信息,存在信息误 差和丢失,难以完整准确还原外部场景,而一体化端到端自动驾驶大模型最明显的优势就在于信 息的无损传递,端到端模型基于原始信息进行学习、思考和推理,最终能像人一样综合理解复杂 的交通环境,并且能够不断成长,有着更高的能力上限。端到端技术方案基于深度神经网络,通过摄像头采集驾驶场景的信息,将其作为深度卷积神经网络模型的输入,再不断对网络模型进行训练,得到学习好的网络参数,从而对智能车方向盘转角进行预测。原创 2024-09-28 22:11:00 · 154 阅读 · 0 评论 -
基于tensorrt的模型量化
int8量化对小目标检测影响较大;int8量化相比fp16量化推理时间并不会节省一半,需实测;当fp16推理时间满足要求时,请采用fp16量化;参考链接:1.tensorrt官方int8量化方法汇总 - 知乎2Xavier中使用TensorRT的Python API对Pytorch模型进行FP16精度和INT8精度转换_tensorrt加速到fp16-优快云博客。原创 2024-03-07 14:41:27 · 136 阅读 · 0 评论 -
自动驾驶自动泊车场景应用总结
自动泊车技术是当前智能驾驶技术的一个重要分支,其目标是通过车辆自身的感知、决策和控制系统,实现车辆在有限空间内的自主泊车操作。目前自动泊车可分为半自动泊车、全自动泊车、记忆泊车、四种产品形态,其中, 根据搭载传感器和使用场景的不同,全自动泊车又可分为基于超声波的全自动泊车、超声波融合环视摄像头的全自动泊车、遥控泊车三种形态。随着自动泊车技术的不断迭代,自动泊车功能的实用性也越来越强。目前存在的自动泊车的典型方案如下。原创 2024-09-12 15:22:07 · 784 阅读 · 0 评论 -
毫米波检测算法总结
毫米波雷达(Millimeter-Wave Radar, mmWave Radar)因其高分辨率、全天候工作能力以及在自动驾驶和工业应用中的重要性,得到了广泛关注。毫米波雷达检测算法主要用于处理雷达信号以实现目标检测、跟踪和分类。原创 2024-08-28 10:34:00 · 284 阅读 · 0 评论 -
Nvidia细节说明
Isaac ROS和DeepStream是NVIDIA针对不同应用领域推出的两款强大工具。Isaac ROS适用于机器人开发,特别是利用ROS生态系统的项目,而DeepStream则专注于视频流处理和深度学习推理,适用于智能视频分析应用。两者都利用NVIDIA的硬件加速能力和深度学习技术,但在具体的应用领域和开发框架上有所不同。原创 2024-07-31 14:41:16 · 102 阅读 · 0 评论 -
车道线检测学习笔记
过于先验,需要大量数据才能解决大区率弯道或者转弯场景。车道线强假设 地平假说,刚性映射:地平,内外参,带有先验的学习了车道线的结构,车道线平行度等。车道线的结构,内外参,地面曲率 融入网络结构。短线与遮挡情况,需要保证模型预测的稳定性。多趟重入,使用定位与建图技术进行优化。>分离出线与线的逻辑功能的标注。逻辑功能可后续升级不同版本标注。虚线在行进中的连续性标注。的信息量不足,需要视觉补充。>以实际应用逻辑为目标。能够表达出路面实际情况。地面高度标注的精度要求。原创 2024-07-14 23:56:36 · 112 阅读 · 0 评论 -
DMS/OMS检测现状分析
DMS是英文Driver Monitor System的缩写,即驾驶员监控系统。目前主流是利用2D或3D的摄像头方案(一般带红外功能)实现对驾驶员的身份识别、驾驶员疲劳驾驶以及危险行为的检测功能,是目前流行的ADAS(高级驾驶辅助系统)系统中重要组成部分。自动驾驶技术研发商MINIEYE发布了其自主研发的MINIEYE I-CS(In-Cabin Sensing)座舱感知量产方案。原创 2024-07-12 14:28:10 · 325 阅读 · 0 评论 -
cuda替代方案总结
OpenCL(Open Computing Language)和CUDA(Compute Unified Device Architecture)是两种用于并行计算的框架,分别由Khronos Group和NVIDIA开发。尽管它们都用于高性能计算,但它们在设计理念、编程模型和使用场景上存在一些显著的差异。原创 2024-07-24 18:01:01 · 550 阅读 · 0 评论 -
自动驾驶相关的传感器和坐标系
投影坐标系统主要是指以米为单位表示距离和大小的平面直角坐标系,需要进行一种坐标变换或映射关系,将用于定位的地理坐标系统中的经纬度信息转换为以米为单位的平面直角坐标,常见的标准有UTM坐标系。在立体视觉中,深度 𝑑 通常指的是物体到相机成像平面(即焦平面)的距离,而不是物体到相机光心(即相机的投影中心)的距离。下图中左图为世界坐标系和相机坐标系的关系示意图,在相机坐标系中原点为成像平面的中心,与z轴垂直的平面对应焦距平面,右图为像素图像坐标系和物理图像坐标系的关系示意图,像素图像坐标系的原点在图像的左上角。原创 2024-06-22 16:24:36 · 300 阅读 · 0 评论 -
自动驾驶训练数据集处理总结
下载速度就看你自己的网速带宽了,配合科学上网挂在后台应该还是没多大问题的。然后找到下载页面下载,这里推荐第二种方式,基于wget直接下载。原创 2024-06-25 14:12:31 · 690 阅读 · 0 评论