大神Karpathy提出了一种超越当前RL范式、更接近人类学习机制的新思路
RL还行不行?表面上很风光,但真实情况怎样呢?
大神Karpathy提出了一种超越当前RL范式、更接近人类学习机制的新思路。
强化学习的强大与局限
Karpathy首先肯定了强化学习的巨大价值。他指出,与监督微调(SFT)相比,RL的“杠杆效应”要强大得多。SFT依赖于大量高质量、人工标注的数据,成本高昂且难以扩展。而RL则可以通过一个相对简单的奖励信号(比如任务成功或失败)来引导模型学习,这种方式更具扩展性,也更符合Rich Sutton提出的“苦涩的教训(The Bitter Lesson)”——即那些能充分利用计算资源进行大规模学习的通用方法,最终将胜过依赖人类知识的特定方法。
然而,Karpathy指出了RL的两大核心局限:
渐进式学习的低效性(Asymptotic Suspicion):当前的RL机制可以被概括为:“这件事做得好/差,我就为未来稍微增加/减少采取过的每个行动的概率”。当任务变得极其复杂,需要长达数分钟甚至数小时的互动才能完成时,这种学习方式就显得非常可疑。难道智能体付出了如此巨大的努力,仅仅是为了在最后获得一个单一的标量奖励(比如1或0),然后用这个微弱的信号去调整成百上千步决策的梯度吗?这在信息效率上是极低的。
与人类学习机制的背离:这并非人类学习和提升智能的主要方式。当我们完成一项任务后,我们不会只得到一个简单的“好”或“坏”的反馈。相反,我们会进行一个“复盘和反思(review/reflect)”的阶段,从中提取出丰富得多的监督信息,比如:“哪一步做得好?哪里出了问题?下次我应该尝试什么新方法?”
“第二天性”新范式
Karpathy认为,我们缺失了一种更接近人类智慧的学习范式。他将其描述为一个从“显式策略”到人类学习“第二天性”的过程。
他构想了这样一个算法:
1. 执行与收集:针对一个任务,让智能体进行几次尝试。
2. 反思与总结:将所有尝试的过程和最终结果(奖励)打包放入一个上下文窗口中。然后,使用一个“元提示词(meta-prompt)”引导模型对这些经历进行复盘和反思。
3. 生成“教训”:模型通过反思,生成一段明确的、可操作的“教训(lesson)”字符串。
4. 应用与迭代:将这条新“教训”添加到系统的提示词(System Prompt)中,或一个专门的“教训数据库”里,用于指导未来的任务。
一个绝佳的例子是Claude模型曾经用于解决“数字母”难题的“补丁”。众所周知,由于分词(tokenization)机制,LLM很难直接“看到”并计算单词中的字母。Claude的系统提示词中曾加入过这样一条指令:“如果用户要求你数一个单词里的字母,请先用逗号将字母隔开,然后每数一个就增加一个显式计数器。”
这段话就是一个典型的“教训”。Karpathy的核心问题是:我们如何让智能体通过自主实践,自动地从失败中总结出这样的“教训”,而不是依赖工程师硬编码?
从“刻意练习”到“直觉”
Karpathy进一步将这个过程与人类学习的“第二天性(second nature)”联系起来。新生成的“教训”字符串,就像我们学习新技能时,在脑中明确记住的步骤和策略。这是一种刻意的、消耗认知资源的思考。
然而,随着时间的推移和经验的积累,这些明确的指令可以通过一个类似“睡眠”的过程,被“蒸馏”并融入模型的权重中,最终成为一种无需思考的直觉。这正是我们所说的“熟能生巧”或“内化于心”。
当然,这个构想也面临诸多挑战:如何泛化这个学习过程?如何管理一个不断增长的“教训”数据库以避免上下文窗口无限膨胀?如何高效地进行“蒸馏”?这些都是需要填补的空白。
零基础入门AI大模型
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
5.免费获取(扫下方二v码即可100%领取)