强化学习也遇到了“天花板”?Andrej Karpathy构建了一个新算法

大神Karpathy提出了一种超越当前RL范式、更接近人类学习机制的新思路

RL还行不行?表面上很风光,但真实情况怎样呢?

大神Karpathy提出了一种超越当前RL范式、更接近人类学习机制的新思路。

强化学习的强大与局限

Karpathy首先肯定了强化学习的巨大价值。他指出,与监督微调(SFT)相比,RL的“杠杆效应”要强大得多。SFT依赖于大量高质量、人工标注的数据,成本高昂且难以扩展。而RL则可以通过一个相对简单的奖励信号(比如任务成功或失败)来引导模型学习,这种方式更具扩展性,也更符合Rich Sutton提出的“苦涩的教训(The Bitter Lesson)”——即那些能充分利用计算资源进行大规模学习的通用方法,最终将胜过依赖人类知识的特定方法。

然而,Karpathy指出了RL的两大核心局限:

渐进式学习的低效性(Asymptotic Suspicion):当前的RL机制可以被概括为:“这件事做得好/差,我就为未来稍微增加/减少采取过的每个行动的概率”。当任务变得极其复杂,需要长达数分钟甚至数小时的互动才能完成时,这种学习方式就显得非常可疑。难道智能体付出了如此巨大的努力,仅仅是为了在最后获得一个单一的标量奖励(比如1或0),然后用这个微弱的信号去调整成百上千步决策的梯度吗?这在信息效率上是极低的。

与人类学习机制的背离:这并非人类学习和提升智能的主要方式。当我们完成一项任务后,我们不会只得到一个简单的“好”或“坏”的反馈。相反,我们会进行一个“复盘和反思(review/reflect)”的阶段,从中提取出丰富得多的监督信息,比如:“哪一步做得好?哪里出了问题?下次我应该尝试什么新方法?”

“第二天性”新范式

Karpathy认为,我们缺失了一种更接近人类智慧的学习范式。他将其描述为一个从“显式策略”到人类学习“第二天性”的过程。

他构想了这样一个算法:

1. 执行与收集:针对一个任务,让智能体进行几次尝试。

2. 反思与总结:将所有尝试的过程和最终结果(奖励)打包放入一个上下文窗口中。然后,使用一个“元提示词(meta-prompt)”引导模型对这些经历进行复盘和反思。

3. 生成“教训”:模型通过反思,生成一段明确的、可操作的“教训(lesson)”字符串。

4. 应用与迭代:将这条新“教训”添加到系统的提示词(System Prompt)中,或一个专门的“教训数据库”里,用于指导未来的任务。

一个绝佳的例子是Claude模型曾经用于解决“数字母”难题的“补丁”。众所周知,由于分词(tokenization)机制,LLM很难直接“看到”并计算单词中的字母。Claude的系统提示词中曾加入过这样一条指令:“如果用户要求你数一个单词里的字母,请先用逗号将字母隔开,然后每数一个就增加一个显式计数器。”

这段话就是一个典型的“教训”。Karpathy的核心问题是:我们如何让智能体通过自主实践,自动地从失败中总结出这样的“教训”,而不是依赖工程师硬编码?

从“刻意练习”到“直觉”

Karpathy进一步将这个过程与人类学习的“第二天性(second nature)”联系起来。新生成的“教训”字符串,就像我们学习新技能时,在脑中明确记住的步骤和策略。这是一种刻意的、消耗认知资源的思考。

然而,随着时间的推移和经验的积累,这些明确的指令可以通过一个类似“睡眠”的过程,被“蒸馏”并融入模型的权重中,最终成为一种无需思考的直觉。这正是我们所说的“熟能生巧”或“内化于心”。

当然,这个构想也面临诸多挑战:如何泛化这个学习过程?如何管理一个不断增长的“教训”数据库以避免上下文窗口无限膨胀?如何高效地进行“蒸馏”?这些都是需要填补的空白。

 零基础入门AI大模型

今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

 

 

(都打包成一块的了,不能一一展开,总共300多集)

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。

 

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

5.免费获取(扫下方二v码即可100%领取)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值