- 博客(97)
- 收藏
- 关注
原创 端到端自动驾驶大模型:视觉-语言-动作模型 VLA
随着视觉-语言-动作模型VLA的发展,感知和规划逐渐融合为一个模型,即端到端自动驾驶大模型。
2024-12-15 20:08:12
4139
4
原创 31-9 行泊一体解决方案子模块设计规范
单芯片持续复用的行泊一体域控制器是当前各零部件厂商的必经之路,行车和泊车在复杂场景下的表现也是咱们努力的着眼点。
2024-11-21 09:00:18
372
原创 31-5 HWA高速辅助驾驶系统信号输出
HWA系统在ACC、LCK子系统基础之上开发,另外还得设计AEB/FCW、DOW、FCTA/RCTA、ELK、ISA等基础功能模块,确保HWA系统正常运转。
2024-11-18 09:18:54
1210
原创 51-63 VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning 基于概率规划的端到端自动驾驶
基于概率规划的端到端、矢量驾驶模型VADv2,性能远超同期多模态大语言驾驶模型DriveMLM。
2024-07-17 09:49:20
1264
2
原创 51-62 Autonomous Grand Challenge at the CVPR 2024 Workshop | 自动驾驶挑战赛获奖作品
参赛选手分别在端到端、无图、占用网络等领域提交了自己的解决方案。
2024-07-08 10:46:46
1129
1
原创 51-61 CVPR 2024 最佳论文 | Rich Human Feedback for Text-to-Image Generation
受大模型中RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型,提出了先进的RichHF-18K数据集和多模态RAHF模型。
2024-06-26 10:45:07
1761
原创 51-60 CVPR 2024 最佳论文 | Generative Image Dynamics
将傅里叶域中密集、长期的运动建模为频谱体积,并通过渲染模块对从频谱体积转换的运动纹理生成动画,实现单个静止图像的动画。
2024-06-24 10:45:13
1870
1
原创 51-59 CVPR 2024 | ChatSiM:Editable Scene Simulation for Autonomous Driving via Collaborative LLM
ChatSim利用了大型语言模型LLM智能体协作框架,采用了一种新颖的多摄像头神经辐射场McNeRF和多摄像头照明估计McLight方法实现了自动驾驶场景可编辑与生成。
2024-06-14 09:48:57
1162
原创 51-58 CVPR 2024 Bosch博世出品 | VLP: Vision Language Planning for Autonomous Driving
视觉语言规划VLP模型使ADS具有模仿人类常识的能力,并参与安全运动规划的上下文推理。
2024-06-12 10:30:00
1316
原创 51-57 CVPR 2024 | Cam4DOcc:自动驾驶应用中仅摄像机4D占用预测基准
本文提出了一种仅摄像机4D占用预测的新基准Cam4Occ,同时引入端到端时空网络OCFNet,预测当前和未来4D占用。
2024-06-11 10:45:49
2524
1
原创 51-55 CVPR 2024 | AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving
本文利用视觉语言模型VLM、大型语言模型LLM设计了一个自动化数据引擎AIDE。该引擎可以自动识别问题、有效地整理数据、通过自动标注改进模型,并通过生成不同的场景来验证模型。
2024-06-06 10:09:05
1100
原创 51-56 CVPR 2024 | UniPAD:A Universal Pre-training Paradigm for Autonomous Driving 自动驾驶的通用预训练范式
UniPAD提出了一种自动驾驶通用的自监督预训练范式,巧妙地将NeRF作为统一的3D渲染解码器,使其能够无缝集成到2D和3D框架中。
2024-06-03 13:54:11
1022
1
原创 51-54 CVPR 2024 | DrivingGaussian:周围动态自动驾驶场景的复合高斯飞溅( Sora能制作动作大片还需要一段时间 )
DrivingGaussian采用复合高斯飞溅进行全局渲染,用于表示周围动态自动驾驶场景,在多运动对象、多相机一致性以及高保真度上实现了优秀的性能。
2024-05-27 13:49:52
1418
原创 51-53 CVPR 2024 | DriveWorld:通过自动驾驶世界模型进行 4D 预训练场景理解 (含模型数据流梳理)
DriveWorld在UniAD的基础上又有所成长,提升了自动驾驶目标检测、目标追踪、3D占用、运动预测及规划的性能。
2024-05-21 09:41:16
1609
1
原创 51-52 CVPR 2024 | Generalized Predictive Model for Autonomous Driving,自动驾驶通用预测模型
作者提出了通用的大规模自动驾驶视频预测模型GenAD,在实现过程中,进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。
2024-05-18 11:29:57
1317
原创 51-51 CVPR 2024 | Panacea:自动驾驶全景可控视频生成
作者提出了全景可控自动驾驶视频生成模型Panacea,同时也制作了一个新自动驾驶视频数据集Gen-nuScenes。
2024-05-16 16:41:38
1292
原创 51-50 两万字长文解读ControlNet论文和代码,以及自定义模型训练和图片精确控制生成实验
本文解读了2023最佳论文ControlNet的论文和代码,同时完成了“自定义”数据集训练和图像精确生成控制测试。
2024-05-13 14:05:42
1661
原创 51-49 CVPR 2024 | OMG:通过混合控制器实现开放词汇的运动生成
OMG从零样本开放词汇文本提示中生成引人注目的动作。这款控制器关键思想是将 pretrain-then-finetune 范式运用到文本-运动的生成中,主要贡献是扩大了模型和数据集大小,以及引入motion ControlNet和混合控制MoC块,实现了文本和运动特征对齐。
2024-05-06 14:31:37
1316
原创 51-48 CVPR 2024 | Vlogger: make your dream a vlog 自编剧制作视频博客
为处理复杂的故事情节和多样化的场景,本文提出了一个名为Vlogger的通用AI系统,将长视频生成任务优雅地分解为四个关键阶段,包括 (1) 剧本Script,(2) 演员Actor, (3)制作人ShowMaker 和 (4) 配音员Voicer。
2024-05-06 10:02:16
1560
1
原创 51-47 CVPR 2024 | DynVideo-E:利用动态NeRF对大规模运动和视角变化的视频编辑
DynVideo-E框架首次引入动态NeRF作为视频表示,通过人体姿态引导将视频信息聚合到3D背景空间和3D动态人体空间中,进而能对大规模运动、视图变化和以人为中心的视频进行编辑。
2024-04-29 13:45:30
1169
原创 51-46 MCDiff,可控视频合成的运动条件扩散模型
我们引入了 MCDiff 动作条件扩散模型,它从一帧图像和一组笔画开始生成细粒度的可控视频。MCDiff首先利用流补全模型F根据视频帧的语义理解和稀疏运动控制来预测稠密视频运动。然后,扩散预测模型G合成高质量的未来帧,形成输出视频。
2024-04-27 10:09:17
714
原创 51-45 Diffuser,生成柔性行为的扩散轨迹规划
Diffuser将规划过程包含在生成建模框架中,以便规划与采样几乎相同。方法的核心在于扩散概率模型,通过迭代去噪轨迹来规划。
2024-04-25 13:45:40
1251
原创 51-44 Generating Long Videos of Dynamic Scenes,生成动态场景长视频
NVIDIA, UC Berkeley联合提出了一个视频生成模型,可以准确地再现物体运动、摄像机视角变化以及随着时间的推移出现的新内容。该论文也是Sora技术报告中提及的32篇之一。
2024-04-24 08:59:45
1186
原创 51-43 DragNUWA,集成文本、图像和轨迹实现视频生成细粒度控制
DragNUWA,是一种端到端的视频生成模型,可以无缝地结合文本、图像和轨迹输入,从而能够从语义、空间和时间角度进行细粒度和用户友好的控制。
2024-04-22 08:45:31
1342
原创 51-42 NÜWA:女娲,通用的视觉合成多模态预训练模型
通用的多模态预训练模型N̈UWA,可以同时处理不同场景的文本、图像和视频,在文生图、文生视频和视频预测等8 个下游任务上效果惊艳。
2024-04-20 10:52:24
787
原创 51-41 Stable Video Diffusion,高质量视频生成新时代
SVD是一种潜在扩散模型,支持文本生成视频、图像生成视频以及物体多视角3D合成。从工程角度来看,本文主要提出了一种高质量、大型视频数据集的制作流程,并提出成功训练视频潜在扩散模型Video LDM的三阶段方法:文本到图像预训练、视频预训练和高质量视频微调。
2024-04-17 08:58:41
1328
原创 51-40 VLDM,基于LDM的高分辨率视频生成
23年4月,英伟达Nvidia联合几所大学发布了带文本条件融合、时空注意力的Video Latent Diffusion Models。通过在压缩的低维潜空间训练扩散模型,实现高质量图像合成并避免过多的计算需求,可用于生成高分辨率且时间连贯的驾驶场景视频,并能够将文本转化为视频进行创意内容创作。
2024-04-15 08:56:16
1480
原创 51-39 华为PixArt-Σ,高质量4K图片生成模型
PixArt-Σ在基础模型PixArt-a上通过提供具有高美感特性和艺术气质的数据集,和从弱到强的训练策略,生成4K图像的能力有效地支持了电影和游戏等行业高质量视觉内容的产生。
2024-04-11 13:45:17
880
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人