全文 7,000字 | 阅读约18分钟
,时长37:15
未经许可不得转载| 转载必保留本公众号名片按钮
2025年,被众多硅谷科技领袖称为'AI Agent元年
2025年,随着Claude 、ChatGPT、Gemini Pro等大模型能力的跃升,AI Agent成为科技领域最炙手可热的话题。这些Agent不再只是被动回应,而是展现出惊人的主动性:它们能理解复杂指令、分解任务目标、持续追踪进度,甚至在完成任务时像人类助手一样主动提供建议。
采访中,李飞飞表示:'我自己也会用一些大型语言模型去理解某个概念、读一篇论文,或者提出一些我不太懂的问题。'作为斯坦福'以人为本的人工智能研究院'的创办者,她对AI Agent的理解更加务实,'最让我兴奋的是看到别人,尤其是孩子们,也在用它来学习和提高自己。''我认为,靠自然语言来分享知识,或者让人们通过自然语言去搜索、构思、学习,是一个非常强大的方式。'但她同时提醒:不管AI多么强大,都要确保人们保留自己的'自主性'(agency)。在她看来,AI Agent的根本定位应该是工具而非主导者,是赋能者而非替代者。这种观点在当下显得尤为重要:我们既要拥抱AI带来的改变,又要保持清醒的认知。
那么,在2025年这个被称为'AI Agent元年'的时刻,我们究竟需要什么样的AI Agent?又该如何把握机遇?在这次深度对话中,这位计算机视觉领域的先驱者给出了她的答案。
采访文稿:
主持人: F.F.,很高兴见到你,欢迎来到 Possible。
李飞飞: 同样,也很高兴在这里见到你。
一、创业项目“空间智能”
主持人: 我想问一下,你当初是怎么想到 ImageNet 这个主意的?那个让你觉得“啊,我们需要做这个”的契机是什么?
李飞飞: 要说清楚具体的那个“关键时刻”其实不太容易,但大约是在 2006 年前后。当时我非常投入地在做研究,使用机器学习算法来尝试理解物体和图像。无论我怎么做、怎么看,都无法逃避一个数学概念:那就是机器学习中的“过拟合”(overfitting)。所谓过拟合,就是模型的复杂度和模型所用数据之间不匹配。尤其当数据——不仅仅是数据量,还有数据的复杂度——并不能有效驱动模型的时候,这个问题就会非常突出。
当然,并不是所有模型都生而平等。我们现在知道所谓“NE 网络模型”(注:此处原文中出现“NE Network models”,可能指的是神经网络模型)具有更高的容量和表征能力。但撇开这些术语不谈,数据和模型之间一定是存在相互作用的。然而我当时发现,大家只关注模型,却不关注数据,或者说只关注模型却以错误的方式看待数据。这正是当时我产生灵感的原因——我觉得我们不仅要关注模型,或者说不能只用一种方式关注模型,而是要关注数据,让数据来驱动模型。那时我刚好到了早期职业生涯的下一阶段,去普林斯顿大学任教。我在那里接触到了一个叫做“WordNet” 的项目。WordNet 与计算机视觉本身没有直接关系,但它是一种很好的方式来组织世界上的各种概念,而且我也很喜欢“WordNet”这个名字。然后,一件事情推动着另一件事的发展,ImageNet 就这样诞生了。它其实源自我对“大规模数据以及对视觉世界多样化表征”的强烈信念。
主持人: 你在 AI 职业生涯的中段,创建了这个了不起的 ImageNet。现在你们还有一个 World Labs(世界实验室),我想把这条线从 ImageNet 一直延伸到 World Labs。能不能和我们谈谈 World Labs 的想法是什么?你正在构建什么,这对我们理解 AI 的未来以及对 World Labs 本身,都具有怎样的关键意义呢?
李飞飞: 确实如此。我整个人的研究生涯——尤其是在 ImageNet 之后——一直在非常专注地思考一个问题:什么是“智能”?我们如何在机器中实现智能?归根结底,对我来说,它可以分解为两个非常简单的方面:如果我们观察人类智能,一方面,我们会“说话”。我们使用语言来沟通,来组织我们的知识,来交流信息。但是,智能还有另一个“半边”,对我们来说同样深远,那就是我们会“做事”。我们会去做各种事情,比如做早餐煎蛋饼,或者去远足;又或者跟朋友们一起玩耍,享受彼此的陪伴。这些行为远远超越了我们说出的任何语言。比如我们可以舒