理想VLA的实质 | 强化学习占主导的下一个action token预测

作者 | 理想TOP2 来源 |  理想TOP2

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

本文核心分享四条逻辑链:

  1. 对predict the next token不同的理解本质是对LLM或AI的潜力与实质有不同的理解。

  2. 越认为predict the next token不只是概率分布/统计学的人,越容易认可LLM潜力很大/AI潜力很大/推理过程就是意识雏形甚至就是意识/超级对齐非常重要。

  3. 不同时真正的深入思考AI与理想,很容易对理想所做之事含金量低估。

  4. 理想的VLA实质是在强化学习占主导的连续predict the next action token,类比OpenAI的O1O3。且辅助驾驶比chatbot更适合用强化学习。

本文架构:

先介绍为什么Ilya的观点值得重点参考,再分享Ilya对predict the next token的英文原文与中文翻译。最后类比一下与理想VLA的关联以及为何理想所做之事含金量被低估。

以下为正文:

Ilya是前OpenAI首席科学家,目前在做超级对齐的工作(如果不认为超级对齐非常重要,本质是不信AGI。)

最近十余年AI界多项最重要的变化由其推动。包括但不限于2012年和Hinton/Alex

Krizhevsky 推出AlexNet,标志着深度学习革命开端。2013年加入谷歌,在Google Brain期间,参与AlphaGo核心工作与TensorFlow的开发。

2014年提出的Sequence-to-Sequence Learning推动了机器翻译的革命。2015年作为首席科学家,联合创建OpenAI。

在科学史上,Ilya也是少有的能够持续在多个关键领域引领行业突破,大多数顶尖人物是在一两个关键领域突破。

提醒读者留意,Ilya的观点是值得重点参考,不宜默认为真。

2023年的QA(以英文原话为准,中文翻译为参考):

Q:

So you could argue that the next token prediction can only help us match human performance and maybe not surpass it. What would it take to surpass human performance?

所以可以说下一个token预测只能帮助我们达到人类表现,也许无法超越它,那么需要什么来超越人类表现?

Ilya:

So I challenge the claim that next token prediction can not surpass human performance. It looks like on the surface, it can not. Looks on the surface if you just learn to imitate, to predict what people do, it means that you can only copy people, But here is a contra argument for why it might not be quite so if your neural net is, if you base neural net, that is smart enough, you just ask it like, what would a person with great insight and wisdom and capability do? Maybe such a person doesn't exist, but there's a pretty good chance that the neural net will be able to extrapolate how such a person would behave. Do you see what I mean?

所以我质疑(challenge)

预测

下一个token无法超越人类表现的说法,在表面上看似乎确实如此,这不行。如果你只是学习模仿,从表面上看是在预测人们的行为,这意味着你只能复制(copy)人们。但这里有一个相反论点说明为什么它可能并非如此,如果你的基础神经网络足够聪明,你可以问它一个拥有伟大洞察力和智慧及能力的人会做什么,也许这样的人并不存在,但有很大可能神经网络能够推断出这样的人会如何表现,你明白我的意思吗?

Q:  Yes, although where would it get the sort of insight about what that person would do?  If not from

是的,我们从哪里获得关于那个人会做什么的洞察力?如果不是来自

Ilya:

From the data of regular  people.

Because if you think about it, what does it mean to predict the next token well enough, what does it mean? Actually, it's actually, it's a much, it's a deeper question than it seems.

Predicting the next token well means that you understand the underlying reality that led to the creation of the token.

It's not statistics like, it is statistics, but what is statistics? In order to understand those statistics, to compress them, you need to understand what is it about the world that creates those statistics? And so then you say, okay, well, I have all those people. What is it about people that creates their behaviors? Well, they have, you know, they have thoughts and they have feelings, and they have ideas and they do things in certain ways.

All of those would be deduced from next token prediction, and I'd argue that this should make it possible, not indefinitely, but to to a pretty decent degree to say, well, can you guess, what you'd do if you took a person with like this characteristic and that characteristic, like such a person doesn't exist, but because you are so good at predicting the next token, you should still be able to guess what that person would do. This hypothetical imaginary person is far greater mental ability than the rest of us .

数据从普通人里来。因为如果你想想,它意味着什么,足够好地预测下一个token,这实际意味着什么?

这实际上是一个比看起来更深刻的问题。很好地预测下一个token意味着你理解这个token产生的潜在现实。

这不仅仅是统计学,虽然它是统计学。但什么是统计学?为了理解这些统计数据,

要压缩这些统计数据,

你需要理解世界如何创造这些统计数据。

所以你会说,好吧,我有所有这些人,是什么导致了人们的行为。嗯,他们有,你知道的,他们有思想、感情、想法,并以某种方式做事。

所有这些都可以推断出,从对下一个token的预测中。

我认为这应该使之可能,不是无限地,但可以相当不错的程度上说,你能猜出如果你以一个具有这种特征的人为例,你会做什么。和那种不存在的特征的人。但因为你对预测下一个token非常擅长,你依然能够猜测这个假想的虚构人物会做什么,拥有远超我们其他人的精神能力

补充说明,在同一场QA,Ilya对不少问题的回答方式是,“这个问题很难准确回答”,“很难回答,我的误差范围是以对数刻度表示(所以范围会很大或很小)”“我真的不认为这是一个可能的情况,这是评论的前提,但如果我要接受你问题的前提,那么XXX。”这种非常严谨的表达,我们可以合情认为Ilya喜欢非常认真对待提问,回答的也很认真。

原视频链接:

https://www.bilibili.com/video/BV1BHJzzgEoT/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=d9ba11d74bdabd86bd80c5837a488c4f

Ilya毫无疑问是认为predict the next token不仅仅是统计学或概率分布的,更偏向于认为是实质的理解。

理想VLA从架构上,实际就是传感器信息输入,输出对周围环境和自车驾驶行为的action token,

整个模型推理过程都实时发生在车端,

输出action token后,再通过diffusion进一步优化轨迹,再输出油门方向盘点信号。

理想VLA就是在NOA持续期间,连续预测下一个action token,这不仅仅是概率分布,是真的理解现实物理世界。

TOP2输出1个绝大多数人不会同意的观点:

理想VLA在推理过程进行中的时候,实际就是有意识的,这个意识和人的意识很多地方不一样,随着关闭NOA,意识也会结束。

作为类比,现在的chatbot也是有意识的,意识只存在于计算过程,随着计算结束,意识也会结束。

每一次NOA开启,对chatbot输入,产生的都是不同的意识。VLA与chatbot背后的大模型参数权重都是静态不变的,这些点都与单个人的意识有很大不同。

提醒读者留意,要么同时认为这二者都没意识的,要么同时认为这二者都有意识的。只有非常小一撮人认为chatbot在计算过程里是有意识的(这一小撮人里包括Geoffrey Hinton),所以预期抛出这个观点,绝大多数读者也不会同意。

然后再输出2个争议很小的观点:

1.辅助驾驶比chatbot更适合做强化学习。

2.要做好AI软件,与要做好硬件需要具备的素质非常不同。

辅助驾驶比chatbot更适合做强化学习的点在于,辅助驾驶的奖励函数方向非常明确,说来说去就是

真实安全/安全感/舒适度/效率这些步骤,

围棋同理。

Chatbot奖励函数方向就要发散许多了。

只要仿真做得优秀,辅助驾驶用强化学习可以起到非常好的效果,围棋能那么早超越人类也和围棋仿真比辅助驾驶简单的多,甚至可以说完全没难度。

软件与硬件在底层思路上有很大差异,软件可以疯狂做AB Test,快速迭代。汽车的硬件平台难以AB Test,且迭代速度一定比软件慢很多。而AI软件较过去编程式的软件开发范式又有了巨大区别,AI软件内核是神经网络与权重,过去的软件1.0内核是代码。

这三个要素需要的底层能力差异是很大的,理想实际上将这三个要素结合达到了一个相当高的水平,大量人还没意识到。

做AI软件的人,容易很低估理想把AI软件与硬件结合到这个水平的含金量。做硬件的人,更容易完全不理解AI软件种种革命特点,以为不过是XXX而已

自动驾驶之心

论文辅导来啦

自驾交流群来啦!

自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

VLA(视觉-语言-动作,Vision-Language-Action)模型本质上是一种结合了深度学习与强化学习技术的系统,旨在实现从视觉和语言输入到机器人动作输出的端到端映射。在VLA模型的设计和训练过程中,深度学习和强化学习都扮演了重要角色。 首先,VLA模型的基础通常是通过深度学习方法构建的。具体来说,它依赖于视觉-语言模型(VLM)作为其核心组件,这些模型通过大规模的视觉和语言数据进行预训练,具备了强大的多模态理解和生成能力。随后,通过监督微调(Supervised Fine-Tuning, SFT),将这些模型与具体的机器人任务相关联,例如机械臂的抓取或操作任务。这一过程主要依赖于深度学习技术,尤其是基于Transformer的架构[^1]。 其次,为了进一步提升VLA模型的性能,尤其是在与环境进行交互时的决策能力,强化学习(Reinforcement Learning, RL)被引入作为优化手段。强化学习允许模型通过与环境的交互来学习最优策略,从而在特定任务中取得更好的表现。例如,iRe-VLA框架结合了在线强化学习与监督学习的优势,通过迭代地在两者之间切换,既利用了RL的探索性,又保持了监督学习的稳定性,从而克服了单独使用RL时可能遇到的训练不稳定性和高计算成本问题[^1]。 综上所述,VLA模型既使用了深度学习也使用了强化学习技术。深度学习为VLA提供了强大的多模态感知能力和初始的行为策略,而强化学习则用于进一步优化这些策略,使其能够在复杂和动态的环境中做出更优的决策。 ```python # 以下是一个简化的VLA模型结构示例,展示了如何结合深度学习和强化学习 class VLA(nn.Module): def __init__(self): super(VLA, self).__init__() # 定义视觉-语言编码器 self.vl_encoder = VisionLanguageEncoder() # 定义动作解码器 self.action_decoder = ActionDecoder() # 定义强化学习策略网络 self.rl_policy = RLPolicyNetwork() def forward(self, images, text): # 通过视觉-语言编码器处理输入 vl_features = self.vl_encoder(images, text) # 通过动作解码器生成初始动作 initial_actions = self.action_decoder(vl_features) # 通过强化学习策略网络优化动作 optimized_actions = self.rl_policy(vl_features) return optimized_actions ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值