斯坦福大学人工智能(AI)课程上,作为NVIDIA前机器学习高级总监和亚马逊云服务前首席科学家,现在则重新回归加州理工学院的Bren计算机学院教授Anima Anandkumar分享了她对这一领域的个人思考。
Anandkumar教授在AI应用于科学研究方面是公认的先驱。她强调,在AI模型开发中,创造性和灵活性至关重要。她指出:'我们在给模型加入理论或结构时需要非常有创造性和灵活性。你不能以一种僵化的方式加入结构,限制了模型的表达能力或根据数据学习更好特征的能力。'这一观点挑战了传统的AI开发方法,强调了数据驱动方法的重要性。
教授进一步解释道:'如果你有足够的数据,应该始终优先考虑数据,而不是为了强加某种结构而牺牲数据的优势。'她指出,过去在语言模型开发中,人们试图强制加入语法规则,但这种方法往往忽视了实际语言使用的复杂性和多样性,尤其是在互联网环境中。
Anandkumar教授的研究团队采用了一种更为平衡的方法。她说:'对于我们的模型,我们有足够的灵活性,类似于Transformer,但它被应用到了连续域中。如果数据足够多,你甚至不需要再加任何结构,它可以自动学习。'这种方法不仅提高了模型的学习能力,还保持了其灵活性和适应性。
对于AI发展的新方向。她提到:'随着下一代GPT-5、GPT-6的出现,未来的发展方向非常明确,就是智能代理。'这些新模型不仅能进行更复杂的推理和决策,还能通过反复的交互和对齐来提高表现。这种进步不仅仅是数据量的增加,更是质的飞跃。
,时长01:16:17
课程要点总结
-
张量算法的核心:
介绍张量分解在机器学习中的应用。此算法适合大规模数据处理,可有效分解复杂结构。具有避免局部最优解、并行性和可扩展性等优势。
-
非凸优化与鞍点问题:
如何在非凸优化中避开鞍点。她的团队提出新方法加速优化过程,在深度学习和复杂模型训练中得到应用。
-
AI与创造力的结合:
Anandkumar教授探讨了AI在创造性领域的应用。她认为AI不仅能用于科学计算和数据分析,还能在艺术、设计等领域带来新可能。随着技术进步,我们将看到更多机器与人类共同创造的案例。
-
AI的社会影响与未来展望:
讨论了AI的发展趋势及其社会影响。她指出AI具有推动技术进步和经济增长的潜力,但也伴随着社会和伦理挑战。她呼吁技术开发者和政策制定者合作,确保AI对社会产生积极影响。
课堂文稿整理
主持人教授Erik Brynjolfsson: 让我先简单介绍一下。Anima,你们可能已经听说了,她是加州理工学院的Bren计算教授。她之前曾是NVIDIA的机器学习高级总监,也担任过亚马逊云服务的首席科学家。她是将AI应用于科学的先锋,她的研究涵盖了张量代数方法、深度学习以及非凸问题的研究。今天她会进行一场大约20分钟的简短演讲,之后我们会进行一场炉边对话,并回答大家的问题。欢迎Anima!
1、简短演讲
我想你们大家肯定都在或多或少地思考生成式AI。我刚刚听到了关于AI工具的使用讨论,所以你们对语言模型已经非常熟悉了。但我认为革命不仅仅局限于语言,而是这些广泛的生成模型学习框架在许多科学领域中也有着深远的影响。
首先,我想快速介绍一下,为什么生成式AI如此重要,它的核心在于能够生成高维分布的样本。这意味着生成的内容不仅仅是复杂的大段文本或图像,还有分子、蛋白质,甚至可能是新的病毒突变基因组。你可以想象,这种能力不仅仅是理解给定的输入,还能生成新的样本,这是生成式AI与过去十年主导的判别式AI的主要区别。
过去的AI主要专注于判别任务,例如给一张图片,让AI判断图片中的物体是猫还是狗。这属于判别式AI,因为它是在理解现有的样本并做出区分。而生成式AI则更进一步,通过足够的计算资源,我们可以从简单的低维描述(如简单的提示或分子的愿望清单)生成复杂的输出,例如具体的分子。这是一个非常困难的过程,但如今我们可以通过大量的数据和规模来实现。语言模型就是一个很好的例子,它们的训练过程非常简单:给定上下文,预测下一个词。我们通过预训练在大规模数据上学习这个过程,然后通过人类反馈的微调,也就是通过强化学习实现对齐,使模型能够理解我们的指令并做出适当的响应。同时,我们也会确保模型不会输出仇恨言论等不当内容。
虽然语言模型在许多应用中表现出色,但它们也有局限性,主要是缺乏“体现性”(embodiment)。文字需要转化为与物理世界互动的行为,这就需要一个“具体化的智能体”(embodied agent)。这些智能体可以根据文本指令执行一系列任务,甚至在没有特定训练的情况下,泛化到新的任务。我们早期在NVIDIA的工作,尤其是与斯坦福的合作,展示了如何通过文本和图像指令让机器人执行不同的任务。文本成为让机器人从特定任务转向泛化任务的重要工具,不仅是在物理世界中,也包括虚拟世界。我们在“Voyager”项目中展示了如何使用语言模型在各种环境中持续学习技能,比如在《Minecraft》(动作角色扮演类游戏)中学习。你可以逐步从简单到复杂地学习技能,并且利用之前学到的技能。这也是我们人类学习的方式。我们先学习某些基础知识,然后按照学习计划逐步攻克更难的问题。而这正是我们希望智能体能够做到的:通过语言模型产生可以在《Minecraft》中执行的动作,并决定下一步要做什么。
这与传统的强化学习不同。当AlphaGo在大约十年前击败世界顶级围棋冠军时,大家都感到非常惊讶,因为AI能够在如此多的可能性中找到比人类更优的最佳解。但是,那时它的焦点仅仅在于一个游戏和一个任务,目标就是赢得比赛,已经是预先设定好的。而《Minecraft》——不知在场的各位有多少人玩过——则更注重创造力。你不会只专注于一件事,你可以建造那些令人惊叹的城堡,我听说甚至有人在《Minecraft》中建造了CPU和GPU。这个游戏的可能性是无限的,而这正是我认为AI智能体的潜力所在。语言模型不应只是孤立的工具,它们可以为智能体提供持续的查询和帮助。而这些智能体最终要自己决定如何继续积累技能,并在环境中解决越来越复杂的问题。《Minecraft》便是这种应用的一个展示。你可以想象,类似的软件应用可以用于所有类型的软件编程。当然,仅靠语言模型还存在一个问题,那就是应对“幻觉”(hallucination)。这些模型目前并不完全基于事实。毕竟,如果你在整个互联网的数据上进行训练,所有信息都会混杂在一起——从笑话、诗歌、软件代码到数学事实都有。当你要求语言模型去证明一个定理时,你不能期望它每次都能100%正确。它可能会声称这个证明是正确的,但ChatGPT很多时候会出错。
因此,在我们这个项目中——我之前建议大家阅读的参考材料中提到的——我们将验证机制加入到语言模型中,以检查语言模型的陈述是否正确。其实我们不需要重新开发这一部分,几十年来已经有许多“formal verifiers”存在。Lean是其中的一个重要工具,许多数学家,包括著名的数学家陶哲轩,都使用Lean,还有一个庞大的社区在将数学形式化为Lean语言。这意味着,当你阅读一篇数学论文时,可能并不确定其中的证明是否正确。作为一名数学专家,你可能会一个个步骤去验证,但如果有一个程序可以确保每一步都是正确的,那么首先你就不需要担心证明的正确性。这一概念在许多领域,特别是那些对安全性要求极高的领域非常有用。比如飞机、无人机、火箭的控制程序中,都必须确保每一个步骤的正确性,否则使用这些程序会非常不安全。我们可以将同样的思路应用于数学领域,将Lean和语言模型结合起来。语言模型可以提出想法,比如说“我认为为了证明这个最大公约数(GCD),我们应该采取这一步骤”。然后,Lean作为验证器可以检查这一步是否正确。通过这种方式,语言模型的每一个证明都可以被100%地确认,这样就没有“幻觉”了。在数学领域,我们可以通过这种方式验证和确认每一步的正确性,而在其他领域,尤其是涉及社会信念或道德问题时,则不能这么做。因此,我认为语言模型的领域专用应用前景广阔,尤其是在有明确验证机制的领域,比如数学中,我们可以彻底消除幻觉。这种逻辑推理对于AI在许多科学领域中的成功至关重要。
我已经谈到了语言模型如何应用于各种不同的领域。但是,除了语言,你还可以扩展到其他模态和数据类型。一个典型的例子就是利用基因组数据,而不是英语或其他自然语言。那么这意味着你现在有了核苷酸序列,ATGC,如果你还记得DNA的结构,我们可以输入这些序列,然后让基因组语言模型预测下一组核苷酸序列。通过这种方式,模型可以学习基因的潜在功能,正如它学习自然语言中的单词含义一样。这个类比是相同的,并且我们也是在大规模数据上进行训练。我们首次建立了基因组语言模型,训练了超过1.1亿条已知病毒和细菌的基因组序列。这些数据来自英国生物银行,它拥有已知病毒和细菌突变的最大数据库,从流感病毒、大肠杆菌到冠状病毒,几乎所有你能想到的病毒和细菌都包含在内。而通常情况下,生物学家往往只研究某一种特定的病毒,比如流感病毒,研究它如何突变。疾病控制与预防中心(CDC)也会尝试预测最佳突变路径并制作相应的疫苗来应对这些突变。然而,通过使用大规模生成式AI模型,我们可以全面观察不同病毒和细菌随时间的进化过程。由于模型可以学习所有突变过程,它可以帮助我们预测哪些突变更有可能发生,从而提出新的变异体预测方法。在这个项目中,我们专门针对冠状病毒进行了模型微调。在训练过程中,我们只输入了疫情第一年出现的变异株,如阿尔法和贝塔变异株,当时其他变异株尚未出现。然而,这个基因组语言模型能够准确预测后来出现的变异株,比如德尔塔和奥密克戎。通过这种方式,模型成功学习了病毒的进化动态,预测了病毒可能的突变方向,这对我们应对未来的流行病具有重要帮助。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



