自动驾驶
文章平均质量分 63
luoganttcc
微信:luogantt2
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
详细总结一下这篇文章Impromptu VLA:用于驾驶视觉-语言-动作模型的开放权重与开放数据
摘要:Impromptu VLA研究针对自动驾驶在非结构化场景(如乡村土路、恶劣天气等)的瓶颈问题,提出首个开源大规模基准数据集。该数据集从200多万条视频中筛选出8万条高质量标注剪辑,涵盖道路边界模糊、临时交通规则变更等4类核心挑战场景。通过VLM模型结合人工验证的混合标注流程,生成7类面向规划的问答对标注。实验验证表明,该数据集能有效提升模型在极端场景下的感知与规划能力,同时其标注体系可作为模型诊断工具。研究填补了非结构化驾驶数据空白,为自动驾驶鲁棒性研究提供了重要基础。原创 2025-11-25 18:33:02 · 375 阅读 · 0 评论 -
BridgeVLA 对比 pi 0.5 有提升吗
BridgeVLA和π0.5作为不同赛道的机器人视觉语言模型,各具优势。BridgeVLA专精3D操作领域,采用3D点云转多视角2D图像的技术架构,在RLBench基准测试中平均成功率88.2%,尤其擅长高精度对齐任务(如Insert Peg成功率88%)。π0.5则聚焦2D家庭场景,通过分层推理处理长时序任务(10-15分钟),在整理床铺等复杂家务中成功率60%-80%。BridgeVLA在3D操作精度(提升基线6.8%)和抗干扰能力(14种扰动中13种最优)上突出,而π0.5在家庭环境多步骤任务中表现优原创 2025-11-10 18:23:46 · 500 阅读 · 0 评论 -
BridgeVLA 算法:3D 操作学习的 VLM 对齐新范式
BridgeVLA算法是由中科院自动化所与字节跳动Seed团队开发的3D视觉-语言-动作模型,解决了传统VLM与3D机器人操作间的输入输出不对齐问题。该模型通过将3D点云渲染为2D多视角图像实现输入对齐,将动作预测转换为2D热图实现输出对齐,在CVPR 2025 GRAIL workshop挑战赛中获得冠军。实验显示仅需3-5条轨迹即可达到96.8%的任务成功率,开创了"少样本3D操作"新范式。算法工作流程包括3D-2D投影、2D热图预测和3D反投影三个关键步骤,显著提升了真实机器人操作原创 2025-11-10 18:17:53 · 1698 阅读 · 0 评论 -
介绍 一下 Pi3 (π³) 算法:排列等变视觉几何学习
Pi3 (π³) 算法是一种革命性的视觉几何学习方法,由浙江大学和上海AI Lab联合开发。该算法采用完全排列等变架构,无需依赖固定参考视图即可直接预测仿射不变的相机姿态和尺度不变的局部点图。核心创新包括:1)输入顺序无关性,确保输出随输入图像排列但几何结构不变;2)无参考视图的几何预测,解决传统方法依赖参考视角的问题;3)尺度与仿射不变性处理。技术架构通过特征提取、排列等变处理和多任务预测实现,采用轻量级Transformer结构。这种设计使Pi3在单幅图像、视频序列等多种场景中具有高度鲁棒性和可扩展性。原创 2025-11-10 17:35:39 · 667 阅读 · 0 评论 -
bevfusion在j6算力评估
摘要:分析BEV网格设计在J6芯片上的性能限制。公版MapTRv2使用200x100网格(75cm/格),但地平线模型为提升推理速度至30ms内调整为100x50网格(1m/格),精度过低无法实用。地平线另一方案采用128x128网格(40cm/格),但感知距离仅51.2米,不满足刹车需求。计算表明J6芯片算力不足,难以同时满足推理速度(30fps)、网格精度(≤40cm)和探测距离(≥100米)的要求。原创 2025-11-02 18:25:53 · 195 阅读 · 0 评论 -
BEVFormer代码复现实践亲测可用
本文详细介绍了BEVFormer开源项目的环境配置与部署流程。主要包括:1)基础环境要求(Ubuntu 20.04+Python 3.8+Torch 1.10.0+CUDA 11.3);2)完整的安装步骤(从源码克隆到各依赖库安装);3)常见错误解决方案(涉及numpy版本、spconv模块、路径设置等10类问题);4)数据集获取方式(提供百度网盘下载链接);5)训练测试说明(参数配置建议和多卡训练命令)。特别强调了detectron2需要根据CUDA和Torch版本单独安装,并提供了完整的报错处理指南,适原创 2025-11-01 22:21:16 · 361 阅读 · 0 评论 -
BEV环视感知算法从环境部署开始
本文介绍了BEV(鸟瞰图)环视感知算法的部署流程和资源。包含在Ubuntu 20.04环境下配置显卡驱动、CUDA、CUDNN、Conda和TensorRT的教程,以及多个BEV算法(Fast-BEV、BEVDet、BEVFusion等)的部署方法。还提供了基于TensorRT的加速部署方案(如PointPillars、CenterPoint等)以及ROS集成版本。文章强调环境配置需严格遵循指定版本(Python 3.8/Torch 1.10.0/CUDA 11.3),并提供相关优快云教程和GitHub代原创 2025-10-30 19:27:47 · 396 阅读 · 0 评论 -
国内企业2025 在自动驾驶上投入多少钱
2025年中国自动驾驶领域总投入预计达700-750亿元,同比增长40%。比亚迪、蔚来、小鹏、华为、百度等头部企业聚焦核心技术突破:比亚迪投入200亿自研芯片和算法,蔚来54亿开发5nm芯片,小鹏45亿推进端到端AI模型,华为100亿升级昇腾芯片和车路云方案,百度30亿扩展Robotaxi商业化。产业链方面,Momenta融资20-30亿优化数据闭环,滴滴推进Robotaxi商业化。行业呈现全栈自研、算力升级和成本下探三大趋势,L3级功能加速量产落地。原创 2025-10-20 11:28:03 · 984 阅读 · 0 评论 -
tesla 2025 年在自动驾驶投入 多少钱
特斯拉2025年自动驾驶领域投入预计达88-108亿美元,聚焦四大方向:1)算法研发投入18亿美元,推动FSD V14升级与数据闭环体系建设;2)算力基建30-40亿美元,转向英伟达H100芯片采购并扩建训练集群;3)硬件迭代25-30亿美元,量产HW5.0平台并研发AI6芯片;4)Robotaxi试点5-10亿美元,启动商业化运营测试。战略转向规模化落地,研发占比降至24%,资本支出升至52%。相比Waymo(35亿)和百度(20亿),特斯拉"纯视觉+数据闭环"路线差异显著。原创 2025-10-20 11:06:51 · 661 阅读 · 0 评论 -
DriveDreamer4D 论文核心总结
DriveDreamer4D提出了一种4D驾驶场景动态表征框架,通过"世界模型生成+同源数据训练"解决现有4D高斯溅射技术的两大局限:数据分布单一(仅含直道驾驶)和渲染一致性差(复杂动作下出现重影模糊)。框架包含新轨迹生成模块(NTGM),可生成符合交通规则的复杂轨迹数据;以及同源数据训练策略(CDTS),通过融合真实与合成数据进行优化。实验表明,该方法能有效提升复杂驾驶场景下的渲染质量,为自动驾驶仿真提供更可靠支持。原创 2025-10-13 12:32:59 · 363 阅读 · 0 评论 -
Jetson Orin 上 Chromium 突然崩了?都是 Snapd 2.70 惹的祸(附修复指南)
摘要:本文针对Jetson Orin设备上Chromium等Snap应用因Snap 2.70更新导致的崩溃问题,提供了三种解决方案:回滚Snap版本、安装旧版Snap或改用Flatpak。技术分析指出,问题根源在于NVIDIA定制内核缺少SquashFS扩展属性和AppArmor支持,导致Snap新增的文件级权限机制失效。文章详细解释了Snap应用的运行机制和崩溃原因,为不同需求用户提供了可行的修复方案。(149字)原创 2025-10-11 15:21:49 · 490 阅读 · 0 评论 -
Jetson AGX Orin刷机教程,亲测可用
本文记录了NVIDIA AGX Jetson Orin刷机流程及避坑指南。主要内容包括:1)刷机准备:需准备Orin设备、Ubuntu系统电脑、显示屏等硬件,并安装NVIDIA SDK Manager;2)刷机过程:分为设备连接和SDK Manager操作两部分,重点介绍了让Orin进入Recovery模式的方法。文章特别提醒:建议使用原生DP或DP转VGA接口显示屏,避免HDMI转换问题。刷机过程使用JetPack 5.0.2为Orin安装Ubuntu 20.04系统及CUDA等组件。原创 2025-10-11 14:59:20 · 1194 阅读 · 0 评论 -
介绍 一下 OpenMMLab
OpenMMLab:计算机视觉开源生态 OpenMMLab原创 2025-09-27 18:00:15 · 424 阅读 · 0 评论 -
什么是 mmdet3d
MMDetection3D(mmdet3d)是OpenMMLab团队开发的基于PyTorch的开源3D目标检测与分割工具箱。它提供灵活高效的框架,支持3D目标检测、语义分割和多模态融合等任务,集成了PointPillars、PV-RCNN等多种算法,兼容KITTI、nuScenes等主流数据集。该工具采用模块化设计,可无缝衔接OpenMMLab生态,广泛应用于自动驾驶、机器人感知等领域,显著降低3D算法实现门槛。官网和GitHub仓库提供了详细文档和源码支持。原创 2025-09-27 17:58:03 · 607 阅读 · 0 评论 -
bevformer 安装 环境配置
BEVFormer自动驾驶视觉感知模型的安装指南摘要:该指南详细介绍了基于PyTorch和MMDetection3D的BEVFormer环境配置步骤。主要包括:1)基础环境准备(Ubuntu系统、Python 3.8/3.9、CUDA 11.1/11.3);2)创建虚拟环境;3)安装匹配版本的PyTorch及相关库;4)安装MMDetection3D及其依赖组件(MMCV、MMDetection等);5)BEVFormer代码库克隆与安装;6)验证安装。特别强调了版本匹配的重要性,并提供了常见问题解决方案。原创 2025-09-27 17:20:34 · 503 阅读 · 0 评论 -
在 nuScenes 测试集上的 NDS 指标达到了最高指标的算法是什么
浪潮信息团队提出的IEI-BEVFusion++算法以77.6%的NDS指标刷新nuScenes 3D目标检测纪录,成为当前最高性能的多模态融合算法。该算法通过动态时空校准、轻量化网络架构和跨模态数据增强,显著提升了目标检测精度和推理速度(28 FPS)。相比BEVFusion等现有方法,NDS提升1.9%,计算成本降低23%,已应用于量产自动驾驶方案。未来研究将聚焦极端环境鲁棒性和多传感器融合优化。原创 2025-09-26 17:14:25 · 492 阅读 · 0 评论 -
如何快速用脚本下载Nuscenes数据集
【代码】如何快速用脚本下载Nuscenes数据集。原创 2025-09-26 17:10:20 · 410 阅读 · 0 评论 -
除了bev 还有什么新的 自动驾驶算法,在未来能取代bev
自动驾驶技术正突破传统BEV算法的局限,涌现出五大创新方向:1)端到端架构(如DriveTransformer和特斯拉FSD V12)通过动态注意力机制直接处理多模态数据,减少30%显存占用;2)三维占据网络(如特斯拉Occupancy Network)通过3D体素建模解决视觉深度估计问题;3)扩散模型(如DiffusionDrive)实现高效轨迹生成,推理速度提升10倍;4)神经辐射场(NeRF)技术实现动态环境高精度重建;5)强化学习算法(如Wayve的DDPG)通过自主学习优化决策。这些创新显著提升了原创 2025-09-17 13:28:10 · 924 阅读 · 0 评论 -
从代码源码角度 解读 open-vla 算法架构
Open-VLA是一种结合视觉、语言和动作的开源模型,用于实现机器人"感知-理解-执行"闭环。其架构包含三大模块:输入处理层(标准化视觉、语言和动作数据)、跨模态融合层(整合多模态信息)、动作解码层(生成执行指令)。典型代码结构包括模型定义、数据处理、训练逻辑和配置参数,通过模块化设计实现多模态任务的端到端处理。原创 2025-09-17 13:21:51 · 812 阅读 · 0 评论 -
从源码角度解读 空间交叉注意力(核心创新) SpatialCrossAttention
BEVFormer中的空间交叉注意力模块通过空间位置约束实现BEV查询与多相机图像特征的精准关联,解决了从多透视图像提取对应BEV网格点特征的关键问题。该模块让BEV空间中的每个网格点仅关注与其物理位置相关的相机图像像素特征,核心功能是实现"图像特征→BEV特征"的精准投影。其创新设计通过空间位置约束机制,有效建立了BEV网格点与多视角图像特征之间的对应关系,为鸟瞰图特征提取提供了重要解决方案。原创 2025-09-16 18:31:10 · 1040 阅读 · 0 评论 -
介绍一下 BEV Transformer 编码器
BEV Transformer编码器是自动驾驶感知模型的核心组件,主要用于将多视角图像特征融合到统一的鸟瞰图(BEV)空间,并通过时间建模增强动态场景的鲁棒性。其核心功能包括:1)消除多相机视角差异;2)融合历史帧信息解决遮挡问题;3)输出高语义BEV特征供下游任务使用。该编码器由N个堆叠的BEV注意力层组成,每个层包含空间交叉注意力和时间自注意力两个关键模块,通过逐层更新BEV查询,最终输出BEV特征。这种设计针对自动驾驶的特殊需求进行了优化,能够有效处理多视角融合和时空连续性问题。原创 2025-09-16 18:20:29 · 638 阅读 · 0 评论 -
bevformer 網絡結構
BEVFormer是一种基于Transformer的鸟瞰图感知模型,由港中文和商汤团队于2022年提出,用于自动驾驶多相机3D检测。其核心是通过时空注意力机制将多视角图像融合到BEV空间:1)使用CNN提取多相机图像特征;2)关键模块BEV编码器包含空间交叉注意力(投影图像特征到BEV)和时间自注意力(融合历史帧信息);3)结合精确的位置编码设计。该模型能有效构建全局鸟瞰视角,提升动态场景感知的鲁棒性。原创 2025-09-16 18:10:34 · 728 阅读 · 0 评论 -
万字长文理解纯视觉感知算法 —— BEVFormer
BEVFormer是ECCV 2022提出的纯视觉感知模型,通过环视相机图像特征转换到BEV空间,实现3D目标检测和地图分割。该模型采用ResNet-101-DCN+FPN提取多尺度特征,通过Temporal Self-Attention和Spatial Cross-Attention模块完成特征转换,在BEV感知任务中达到SOTA效果。文章推荐深蓝学院的《BEV感知理论与实践》课程系统学习相关知识。原创 2025-09-16 16:13:34 · 972 阅读 · 0 评论 -
萤火跑模型 | 多卡并行助力 BEVFormer 三小时全精度训练
BEVFormer 模型基于可变形注意力机制,融合多视角相机到 BEV(Bird’s eye view)视角进行感知,适用于多种自动驾驶感知任务。该模型采用稀疏注意力机制提高了计算的效率,通过融合时空信息获得了更加准确的感知任务性能。BEVFormer 在 3 月份的 nuScenes 3D 目标检测任务上获得了第一名的成绩,mAP 和 NDS 两个指标均超过以往方法 3 个点以上。在 Waymo 组织的 Camera Track 比赛中,BEVFormer 模型同样获得了冠军。原创 2025-09-16 16:10:57 · 995 阅读 · 0 评论 -
介绍 一下 OpenMMLab
OpenMMLab是上海人工智能实验室开发的开源计算机视觉平台,已成为全球领先的深度学习工具链。其模块化设计和预训练模型库显著降低了研究与应用门槛。核心组件包括基础引擎MMEngine(优化30%显存占用)和MMCV(推理速度提升2.3倍),以及垂直领域工具如MMDetection3D(多传感器融合达78.2% NDS)和MMagic(图像修复PSNR 32.7dB)。2025年重点更新包括:MMDeploy支持TensorRT 9.1量化(精度损失<1%)、MMagic 2.0实现高清视频生成(FI原创 2025-09-16 14:44:02 · 927 阅读 · 0 评论 -
能取代 transform 的架构目前看来 有哪些
【摘要】随着Transformer在长序列处理、计算效率和硬件适配性上的局限性显现,多种新型架构涌现。Mamba系列通过状态空间模型实现线性复杂度序列建模,在长上下文任务中效率提升显著;MoR混合架构结合递归与动态路由,优化计算资源分配;混合范式如Conformer和Swin Transformer融合CNN与Transformer优势,在视觉和语音任务中性能突出;数学建模方向通过线性注意力、稀疏机制等理论突破,降低计算复杂度。这些替代方案在特定场景下展现出超越Transformer的潜力,为AI模型架构发原创 2025-09-15 18:26:58 · 884 阅读 · 0 评论 -
介绍一下 Test-Time Training 技术
摘要: Test-Time Training(TTT)是一种在模型推理阶段利用测试数据动态调整参数的机器学习技术,旨在解决训练与测试数据分布偏移问题。其核心是通过自监督任务从无标签测试数据生成监督信号,轻量级微调模型参数(如仅调整部分层或使用小学习率),实现实时适应。TTT需平衡适应性(如数据增强一致性、伪标签任务)与稳定性(参数冻结、动量更新),适用于计算机视觉(光照变化)、NLP(语言风格迁移)、医疗(设备差异)等分布偏移显著的领域,提升模型在复杂环境中的鲁棒性。原创 2025-09-15 18:25:51 · 1408 阅读 · 0 评论 -
能取代 transform 的架构目前看来 有哪些
近年来,Transformer架构在长序列处理、计算效率和硬件适配性方面逐渐显现局限性,学术界和工业界涌现出多种创新替代方案。主要包括:(1)Mamba等状态空间模型(SSM)通过结构化矩阵运算实现线性复杂度,在1M token长序列推理中吞吐量提升5倍;(2)MoR混合递归架构采用动态路由机制,推理速度提升2倍;(3)CNN+Transformer混合模型(如Conformer、Swin)结合局部与全局特征,在语音识别和视觉任务中表现优异;(4)RWKV等动态计算架构实现训练并行化和推理线性化;(5)数学原创 2025-09-15 15:53:57 · 903 阅读 · 0 评论 -
能取代 transform 的架构目前看来 有哪些
前沿研究显示,多种新架构有望替代或补充Transformer模型。TTT架构通过梯度下降动态压缩上下文,实现线性时间复杂度;RetNet采用多尺度保留机制,推理速度提升8.4倍;MoR通过动态路由实现自适应计算分配;Mamba结合CNN与RNN优势,计算加速5倍;RWKV采用纯线性设计,优化训练成本。这些架构在长序列处理、计算效率和资源分配等方面展现出显著优势,已在斯坦福、微软等机构及工业界得到应用验证。原创 2025-09-15 15:44:07 · 903 阅读 · 0 评论 -
NVIDIA TensorRT 对神经网络模型 进行 混合精度量化流程
NVIDIA TensorRT 是一个针对 GPU 优化的高性能推理引擎,支持混合精度量化(FP32/FP16/INT8/INT4)以在保证精度的同时提升推理性能。其核心优势在于自动优化层融合、权重压缩和内存使用,并针对不同 GPU 架构进行硬件加速。使用流程包括环境准备(安装 TensorRT 8.0+、CUDA 11.0+ 等)、模型转换、量化配置、校准(低比特)、引擎构建和推理验证。混合精度量化可显著提升推理速度,如 INT8 比 FP32 快 2-4 倍,结合 FP16 效果更佳。原创 2025-09-13 13:46:59 · 1099 阅读 · 0 评论 -
如何对神经网络模型 进行 混合精度量化
神经网络混合精度量化技术综述 主流框架和工具支持对神经网络不同层/组件采用不同精度(如FP32/FP16/INT8/INT4等)量化,在保证模型精度的同时优化体积和推理速度。PyTorch内置量化工具(torch.quantization)提供灵活策略,支持训练时量化和训练后量化,允许指定不同层使用不同精度(如关键层用FP16,非关键层用INT8)。通过torch.ao.quantization模块配置混合精度方案,适用于CPU/GPU部署场景。该技术正在成为模型优化的重要手段,在移动端和边缘计算领域具有广原创 2025-09-13 13:40:50 · 1123 阅读 · 0 评论 -
什么是 视图引导蒸馏(VGD)技术
摘要: 视图引导蒸馏(VGD)是一种多模态知识迁移技术,通过融合不同视角/模态(如2D图像与3D几何特征)实现轻量化模型优化,平衡精度与计算成本。其核心包括跨模态特征对齐(空间映射与KL散度约束)、联合损失设计(视图内/跨视图一致性)及渐进式训练(分阶段量化与知识迁移优先级)。在自动驾驶领域,VGD显著提升量化模型性能(如nuScenes数据集NDS指标提升1.8%);在3D点云分析中,通过2D-3D特征迁移提高分类精度(如ModelNet40上PointNet++准确率提升0.4%)。该技术适用于多模态协原创 2025-09-13 13:24:53 · 370 阅读 · 0 评论 -
介绍一下 QD-BEV
QD-BEV是一种轻量级3D目标检测框架,通过量化感知训练(QAT)和视图引导蒸馏(VGD)技术解决自动驾驶中BEV模型计算资源消耗大、体积庞大等问题。其采用渐进式量化策略和混合精度处理,结合跨域特征对齐的蒸馏方法,在nuScenes数据集上实现NDS 37.2%(QD-BEV-Tiny)和50.9%(QD-BEV-Base)的精度,模型体积压缩4-8倍,推理速度提升3倍,在Jetson AGX Orin上达到25 FPS。该技术平衡了高效推理与高精度检测,特别适用于仅摄像头的自动驾驶感知方案。原创 2025-09-13 13:21:59 · 1079 阅读 · 0 评论 -
PTQ 模型 量化方法
Post-Training Quantization (PTQ) 是一种无需重新训练模型的低精度量化技术,通过少量校准数据计算量化参数(如缩放因子、零点),将FP32模型转换为INT8/INT4等低精度模型。其核心流程包括模型准备、校准数据选择、量化参数计算(权重量化通常采用逐通道方法,激活值量化使用Min-Max或KL散度校准)、量化模型转换及验证。相比量化感知训练(QAT),PTQ具有部署高效、计算成本低的优势,但可能带来精度损失。该技术广泛应用于工业界,适用于快速模型压缩与加速需求场景。原创 2025-09-13 12:57:42 · 883 阅读 · 0 评论 -
Bev 感知模型量化 有哪些问题
BEV感知模型量化面临五大核心挑战:1)训练稳定性问题,直接量化导致NDS指标显著下降;2)复杂网络结构量化难题,包括Transformer动态计算、多模态融合精度损失和3D卷积瓶颈;3)数据分布适配困难,场景差异和离群值影响量化效果;4)硬件适配问题,混合精度支持不足、边缘设备资源限制和动态量化计算开销;5)多模态数据协同量化挑战。现有方法如QD-BEV通过视图引导蒸馏等技术可将NDS提升1.8%,但整体仍存在精度与效率的平衡难题。原创 2025-09-13 12:41:42 · 870 阅读 · 0 评论 -
比vla 更先进的 下一代自动驾驶算法是什么
摘要:自动驾驶技术正从单一模态向多维度智能决策演进,前沿研究聚焦五大突破方向:1)多模态大模型驱动的层次化决策架构,如地平线Senna系统通过语言化指令解耦提升决策可解释性;2)扩散模型实时轨迹生成技术,实现45 FPS推理并保持多样性;3)神经符号系统模拟人类风险评估,优先保护弱势群体;4)动态令牌处理技术平衡计算效率与感知精度;5)联邦学习结合对抗训练保障数据隐私。这些技术显著提升自动驾驶在复杂场景中的安全性和适应性。原创 2025-09-10 21:39:24 · 583 阅读 · 0 评论 -
小鹏汽车在 VLA(视觉 - 语言 - 动作)算法模型框架细节与原理
小鹏汽车VLA算法采用"云端基座+车端蒸馏"混合架构,720亿参数的云端模型基于Qwen2.5-VL大模型,支持5秒长时序预判;30亿参数车端模型通过知识蒸馏实现实时推理。核心技术包括:1)视觉处理采用Grounded-SAM分割和ViT-CNN混合架构,通过ReconPruner剪枝压缩视觉Token;2)语言推理模块结合Qwen2.5-VL模型和导航引导优化;3)动作生成采用扩散模型实现20ms低延迟控制;4)多模态融合通过时空推理和跨模态对齐提升决策能力。训练使用240万标注数据,原创 2025-09-10 13:52:47 · 2678 阅读 · 0 评论 -
小鹏汽车 vla 算法最新进展和模型结构细节
小鹏汽车在VLA(视觉-语言-动作)算法领域取得重大突破,2025年9月完成全球首个全场景VLA系统的OTA推送,实现专家级风险预判、人机共驾模式等创新功能。其技术核心包括:720亿参数云端基座模型与30亿参数车端蒸馏模型的混合架构,自研图灵AI芯片提供2250TOPS算力,以及北大联合研发的FastDriveVLA框架实现视觉token高效压缩。系统支持多传感器融合、自然语言指令解析和实时动作生成,为智能驾驶带来革命性升级。原创 2025-09-09 18:28:29 · 2647 阅读 · 0 评论 -
vla 开源最强的模型是哪一个
斯坦福大学开发的OpenVLA成为当前性能最优的开源视觉语言动作模型,具有三大优势:1)任务成功率领先,以7B参数实现16.5%的绝对提升;2)多模态融合技术,支持高效微调与实时推理(6Hz);3)提供完整开源技术栈,包括预训练模型和API接口。该模型在29个机器人任务中表现优异,特别在零样本泛化和边缘部署方面具有突出优势。原创 2025-09-09 18:10:07 · 1373 阅读 · 0 评论 -
vla 模型 有哪些开源算法
本文梳理了当前主流的视觉-语言-动作(VLA)开源模型及其技术特点,主要分为三类:1)基于Transformer的端到端模型,如OpenVLA和RT-2复现方案;2)扩散模型与动作生成,如Diffusion Policy和GraspVLA;3)混合架构与多模态融合,如星海图G0模型。这些模型在机器人控制、抓取等任务中展现出优异性能,部分项目已开源代码和预训练模型。技术架构上,普遍采用视觉编码器与语言模型的组合,并通过创新方法实现高效动作生成。原创 2025-09-09 15:04:28 · 1433 阅读 · 0 评论
分享