论文推土机​World Models一览~

作者 | 论文推土机 编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/21030160168

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心世界模型技术交流群

本文只做学术分享,如有侵权,联系删文

Ha, D., & Schmidhuber, J. (n.d.). World Models. world model的工作模式和自动驾驶预测决策规划如出一辙,我认为world model是自动驾驶数据驱动方式的终局方案。perception对应V model, 预测对应M model,决策规划则是C model,在感知输入下,world model具有ego action对环境影响的判断能力,可以预测出next Z, 通过ego action的rollouts获得这种自车行为对未来的影响与演化过程,最后找到best policy,这不就是自动驾驶在做的事情吗。

world model

world model的组成有两部分:vision model + memory model. 其中vision model将高维度视觉信息转变成低维度信息,这里通过VAE完成:

memory model采用了MDN-RNN模型实现,说白了就是混合高斯模型+LSTM. memory模块要维护一个latent state h, 它用于存储历史信息。此外他还要有预测未来的能力:“we also want to compress what happens over time. For this purpose, the role of the M model is to predict the future.”未来的状态记为z:“we train our RNN to output a probability density function p(z) instead of a deterministic prediction of z”。那这里有一个说法,关于z怎么表达,不同文章有不同的做法,比如可以是deterministic的做法,直接就是确定的z, 或者是这里的gaussian distribution用于容纳不确定性,也有dreamer系列的做法,搞成discrete的形式。下图表达了world model的结构,不过这里还不完整,少了action.

所以更准确的表达是带上action:

训练:

vision, memory and control三部分都是互相独立的,各训练各自的即可:

vision部分就是要训练一个重建任务:

memory部分是要训练一个对未来的预测任务:

在后面的附录里面还有一个更明确的图:

RNN输出两个东西,一个是latent state h: "M will then take the current zt and action at as an input to update its own hidden state to produce ht+1 to be used at time t + 1.", 还有一个未来的预测z。看到这里的温度系数,用于加入噪声,温度系数越大,则对网络施加的干扰越大。文中说到可以“adjust τ to control the uncertainty of the environment generated by M”。

controller就是参数量极小的MLP: = + , 训练过程也很简单,就是在rollouts中找打reward最高的rollout。文章强调:“In our experiments, we deliberately make C as simple and small as possible, and trained separately from V and M, so that most of our agent's complexity resides in the world model (V and M).”就是要用很小的C,来把压力全部给到V and M. 后面实验的参数量也可以看到:

网络的一次循环伪代码如下:

  • 感知输入进行encoding

  • controller输入z,h 计算action

  • rnn输入action, z,h更新h

实验

第一个实验式car racing。做了一个ablation, 说这个controller不给他h, 只有当前v行不行,答案是不行:

然后说既然这个world model可以自己预测未来,是不是可以直接在world model的闭环中实现自我学习:“This begs the question – can we train our agent to learn inside of its own dream, and transfer this policy back to the actual environment?”

那必须的,world model不就是用来干这个的嘛:“Since our world model is able to model the future, we are also able to have it come up with hypothetical car racing scenarios on its own. We can ask it to produce the probability distribution of zt+1 given the current states, sample a zt+1and use this sample as the real observation. We can put our trained C back into this hallucinated environment generated by M”,事实上,在下一个实验中就详细论证了这个自我学习过程,然后应用到真实环境中的思路。

VizDoom:

这个实验中强调了以下几点:

温度系数的作用

“we note that it is possible to add extra uncertainty into the virtual environment, thus making the game more challenging in the dream environment. We can do this by increasing the temperature τ parameter during the sampling process of zt+1”,说我们可以通过调整温度系数来在M model的训练过程中引入更多的不确定性,这样可以让模型学的更厉害,“In fact, increasing τ helps prevent our controller from taking advantage of the imperfections of our world model。”然后从后面的实验结果中也可以看到,提升系数可以让模型的虚拟表现和真实表现更加接近:

表达能力和决策能力

我们并不需要V model用来完美重建,这个和后面的M and C的表现不完全相关,V只要能够提供信息的压缩即可。“even though the V model is not able to capture all of the details of each frame correctly, for instance, getting the number of monsters correct, the agent is still able to use the learned policy to navigate in the real environment”。

iterative training

在环境比较复杂的时候,可以采用迭代学习策略“We need our agent to be able to explore its world, and constantly collect new observations so that its world model can be improved and refined over time”,因为你不可能直接一下子学到复杂环境的world model, 而我们的自学习过程又需要好的world model给到action-state的未来预测能力,所以这个时候就可以迭代学习:

① 自动驾驶论文辅导来啦

689b2ab9f0636873ddbe01044f496657.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

6bad6c94b1a1588a72040e151114b54a.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

61bdf78b1ddf83b31a9bd44b44e2cfc3.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

01b06fa680bea10af1f4a07db418f8e9.png

同步定位与地图构建(SLAM)技术为移动机器人或自主载具在未知空间中的导航提供了核心支撑。借助该技术,机器人能够在探索过程中实时构建环境地图并确定自身位置。典型的SLAM流程涵盖传感器数据采集、数据处理、状态估计及地图生成等环节,其核心挑战在于有效处理定位与环境建模中的各类不确定性。 Matlab作为工程计算与数据可视化领域广泛应用的数学软件,具备丰富的内置函数与专用工具箱,尤其适用于算法开发与仿真验证。在SLAM研究方面,Matlab可用于模拟传感器输出、实现定位建图算法,并进行系统性能评估。其仿真环境能显著降低实验成本,加速算法开发与验证周期。 本次“SLAM-基于Matlab的同步定位与建图仿真实践项目”通过Matlab平台完整再现了SLAM的关键流程,包括数据采集、滤波估计、特征提取、数据关联与地图更新等核心模块。该项目不仅呈现了SLAM技术的实际应用场景,更为机器人导航与自主移动领域的研究人员提供了系统的实践参考。 项目涉及的核心技术要点主要包括:传感器模型(如激光雷达与视觉传感器)的建立与应用、特征匹配与数据关联方法、滤波器设计(如扩展卡尔曼滤波与粒子滤波)、图优化框架(如GTSAM与Ceres Solver)以及路径规划与避障策略。通过项目实践,参与者可深入掌握SLAM算法的实现原理,并提升相关算法的设计与调试能力。 该项目同时注重理论向工程实践的转化,为机器人技术领域的学习者提供了宝贵的实操经验。Matlab仿真环境将复杂的技术问题可视化与可操作化,显著降低了学习门槛,提升了学习效率与质量。 实践过程中,学习者将直面SLAM技术在实际应用中遇到的典型问题,包括传感器误差补偿、动态环境下的建图定位挑战以及计算资源优化等。这些问题的解决对推动SLAM技术的产业化应用具有重要价值。 SLAM技术在工业自动化、服务机器人、自动驾驶及无人机等领域的应用前景广阔。掌握该项技术不仅有助于提升个人专业能力,也为相关行业的技术发展提供了重要支撑。随着技术进步与应用场景的持续拓展,SLAM技术的重要性将日益凸显。 本实践项目作为综合性学习资源,为机器人技术领域的专业人员提供了深入研习SLAM技术的实践平台。通过Matlab这一高效工具,参与者能够直观理解SLAM的实现过程,掌握关键算法,并将理论知识系统应用于实际工程问题的解决之中。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值