为什么蛮力并非一切,以及为何AI初创企业或将迎来黄金时代

代理来了,但冬天没来。

当我们即将迈入2025年时,AI领域依然充满激动与不确定性。一方面,人们对推动巨大进展的扩展“法则”是否仍然有效产生了重大疑问。AI生态系统的关键问题在于,是否更大的模型在通过数量级增加训练和推理的计算资源后,仍能持续显著提升性能。另一方面,AI领域的进步似乎从未如此迅猛,各类基础模型提供商和初创企业推出了一系列几乎让人觉得“魔法般”的新功能与产品。

在如此多悬而未决的问题中,我想分享一些想法,迎接AI即将到来的狂野一年。我不会做出很多大胆预测(我的“水晶球”依然模糊不清),但以下是2025年开篇时我的思考方向。

1) 预训练可能接近收益递减,但说“扩展终结”还为时过早

业内越来越多的声音认为,我们正在接近“扩展法则的尽头”。这种观点部分来源于GPT-5尚未发布,同时OpenAI最近的产品进步(尽管非常令人印象深刻)主要来自于其他创新。你可能已经看到,OpenAI联合创始人伊利亚·苏茨克维尔最近宣布预训练时代的结束,这无疑给这一观点添了一把火。

但“预训练的终结”、“扩展法则的终结”和“扩展的终结”可能指的是不同的事情,因此值得澄清我们具体在谈什么。2020年,贾里德·卡普兰和多位OpenAI研究人员发表的一篇里程碑式论文详细阐述了LLM(大语言模型)的扩展法则:即模型性能随着模型规模增大、训练数据增多和计算量增加而提升。2022年的著名论文《Chinchilla》进一步描述了在给定计算预算下,模型规模和数据集规模的最佳平衡。两篇论文均指出,任何一个变量的每一次增量增加所带来的提升幅度都小于之前的一次。

因此,当我们观察到收益递减时,讨论“扩展法则的终结”其实是不合适的,恰恰相反,这正是扩展法则所预测的结果。

也许这只是语义问题,可能当人们谈论“扩展法则的终结”时,真正想表达的是进一步扩展模型已不再带来实质性回报。行业专家对这一问题各有看法,也没有人能真正确定。但这里有几点值得关注:

首先,性能提升从来不仅仅依赖于扩展预训练模型。增加参数、数据和计算确实是从GPT-2到GPT-3、从GPT-3到GPT-4巨大进步的关键驱动因素,但绝不仅仅是蛮力。监督微调(SFT)和基于人类反馈的强化学习(RLHF)在使模型变得实用方面至关重要,这也是ChatGPT表现出色的核心原因。(1)新推出的o1和o3模型同样如此,其关键创新在于强迫模型在回答之前“思考”,将更大的问题分解为更小、更易管理的步骤。(2)

其次,虽然通用基础模型已经训练了大部分互联网文本(“预训练终结”阵营的关键论点之一),但生物学或化学等专业领域仍未得到充分开发。因此,通过更多领域特定的数据进行训练,仍有巨大进步潜力。至于这是否会对特定领域之外的性能产生提升,仍是个悬而未决的问题(但已有证据表明这对代码有效,例如,更多的代码训练能提升LLM的推理能力)。同样,许多人对多模态数据(尤其是视频)和合成数据抱有很高期望,认为它们能解决数据饱和问题,但专家对其实际效果意见不一。(在代码领域,合成数据显然有效;其他领域尚待验证。)

最后,即便我们确实接近预训练扩展成本过高的阶段,我们才刚刚开始探索更强推理计算对模型性能的提升潜力。o1模型已经表明,给予模型更多时间“思考”问题能产生更好的答案。通过更多计算,模型可以完成更多步骤,进一步提升获得正确答案的可能性。(3)

综合来看——我的最佳猜测是,LLM仍将通过更多参数/数据/计算获得改进,但改进曲线不会像过去那样陡峭,而人们将越来越关注预训练之后的所有环节。

2) 不会有新的AI寒冬

新技术被炒作时,夸大的期望往往会导致深度失望的低谷期,因此许多人担心当前的兴奋阶段会引发新一轮AI寒冬。

我不这么认为。

当然,会有许多失败。试点项目未能转化,初创企业倒闭(包括一些已融资数千万但尚未找到PMF的公司)。在产品未能达到预期或宣传效果的领域会出现幻灭感。可能还有一些公司花费数亿美元训练模型,却未能将投资转化为具有可持续竞争优势的差异化产品的惨痛失败。

但不会有大范围的AI寒冬,质疑整个领域价值。AI今天已经在代码生成、医疗记录、翻译、客户支持以及为数以千万计的人提供生产力提升等方面带来了巨大的价值。我也相信,近年来流入AI领域的资本和人才规模将确保继续高速发展,即使预训练不再是主要驱动力。

所以,如果真的有AI寒冬,它也会像理查德·索彻最近在一档播客中提到的那样,只是加州的温和冬季,而非柏林的严寒冬天。

3) 但一些高飞者将不幸坠落

过去几年,许多AI初创企业以极快的速度从零增长到数百万美元ARR(一些甚至更多),这样的速度在过去极为罕见。这种现象的背后有多个因素:

• AI产品更容易构建,展现了令人惊艳的新功能,用户和买家为之惊叹。在某些领域,AI已跨过质量门槛,释放了巨大的需求,即使产品类似,也让许多玩家能够积累势头(如写作助手)。

• ChatGPT的发布使得AI成为开门利器。每家公司都想尝试AI工具和解决方案。促使企业进行试点变得更加容易。例如,法律科技曾是技术采纳的落后领域,尽管多年来人们一直在讨论AI,但实际进展甚微。ChatGPT却将AI迅速推到每家大型律师事务所的关注焦点。根据Clio最新的法律趋势报告,律师事务所的AI采用率一年内从19%飙升至79%。

尽管如此,我担心许多快速增长的初创企业会在用户流失率攀升时触顶,试点项目未能转化成正式合作的风险尤其显著。

这一风险在以下几种情况下尤为突出:

• 易替换的点状解决方案:这些产品易于采用,但同样容易被替代。

• 附加工具:这些工具可能在短期内取得成功,但如果大型企业迅速整合类似的AI功能,长期生存将面临挑战。

• “人工介入”产品:这些产品在实现收入牵引力时可能并不真正代表产品市场契合度(PMF)。虽然起步时用人工介入是不错的策略,但最终的考验在于能否逐步去除人工介入。(4)

AI浪潮正在推动众多企业前行,但并非所有企业都能持久存活。这种现象对大型技术浪潮来说是典型的,所以并不新鲜。

4) 初创企业将解决AI的“最后一公里”问题

ChatGPT问世后,许多科技从业者(包括我自己)曾问自己:如果AI以如此快的速度持续进步,那么初创企业还能做什么?OpenAI、Anthropic或Google等企业的最新LLM是否最终会接管一切?如果未来几年出现一个极其智能的AI系统,能够访问企业的全部数据,还需要专门的商业应用程序吗?

这些担忧是合理的,但根据过去两年的观察,我认为尽管(或者说也许正因为)基础模型能力的迅速提升,对AI初创企业的机会将不减反增。更强大的模型和更多用户尝试这些模型的趋势,意味着需要初创企业来解决基础模型无法单独解决的“最后一公里”问题。

以下是更强模型如何扩大初创企业机会空间的几点原因:

A)快速增长的期望值

当模型几乎无法生成连贯文本时,一个“足够好”的摘要或回复已属惊艳。然而,当GPT-4、Gemini 2等模型可以写论文、调试代码并完成更多任务时,人们的期望值大幅提高。企业希望AI解决方案可靠(无“幻觉”),准确(基于事实且与企业数据一致),并且可信(安全且可解释)。

B)集成的复杂性

企业必须将模型集成到复杂的系统中,吸收来自多种来源、不同格式的数据,结合定制化的工作流,并确保输出符合特定领域的要求。理论上,基于检索增强生成(RAG)看似简单,但实际操作中需要克服各种挑战:如何有效分块、存储和排序企业文档?如何在检索和输入数据时管理延迟?如何避免不相关或误导性的上下文?

C)智能代理系统的增加

未来毫无疑问属于能够自主完成多步骤任务的AI工具。但赋予AI如此大的权力后,确保系统的安全性和可靠性将变得更加困难和重要。

如果基础模型扩大机会面快于其覆盖“最后一公里”的速度,我们或将迎来一个AI初创企业的黄金时代。这些企业把基础能力转化为健全、适合企业使用的产品。希望这一理论能被证明是正确的 🙂

5) “虚拟员工”可能只是噱头

12到18个月前,一种新型AI初创企业引人注目:这些公司提供具有类似人类属性(有时甚至有面孔和名字)的数字员工,用于自动化完成端到端的工作,例如销售和客户服务。如果你最近去过旧金山,你可能见过Artisan的广告牌遍布全城。

这是一个非常创新且耳目一新的想法。这些“数字员工”通常使用与现有人类员工相同的工具,这些初创企业得以借助现有平台快速落地,同时将集成工作降到最低。这也是以差异化的包装和可能颠覆性的定价模式对抗现有巨头的一个机会。对于客户来说,这种价值主张非常吸引人:保留现有的软件和工作流程,只需添加一些价格更低的AI员工来接手部分工作。

尽管如此,我仍在思考,“具有类似人类属性的AI员工”长期来看是否有意义,还是这仅仅是当前AI采用阶段的权宜之计。我更倾向于后者。如果AI在某些工作中表现优异,但在其他工作中表现不佳,许多岗位可能需要重新配置。例如,如果AI可以处理80%的销售开发代表(SDR)任务,但只能完成客户经理(AE)25%的工作,你不能简单地用AI SDR取代所有SDR。我们仍需花时间探索如何与智能软件和代理协作,但我猜测,有面孔和名字的AI员工不会是最终形态。

6) 随着智能代理AI的出现,我们都需要重新思考人机交互

随着能够浏览网页、执行代码、使用外部工具或处理交易的智能代理AI出现,人机交互需要从根本上重新设计。我们并不习惯赋予软件如此大的权力,因此定义这些系统可以独立完成的任务范围将成为关键挑战之一。

例如,让一个AI代理负责预订旅行。即便是预订航班这样看似简单的任务,AI代理也很难独立完成,因为需要权衡选择,例如在更快的航班连接和更低的价格之间做出决定。即使AI代理了解你的偏好,也很可能在具体情况下并不总是做出正确选择。现在想象,让一个AI代理独立处理企业中复杂的多步骤工作流(甚至与其他AI代理交互!),这种情况的风险和挑战显然更大。

在公司允许智能代理系统处理越来越复杂的任务、减少人类监督的情况下,必须解决许多问题。一个有用的类比可能是培训和管理一位逐步获得更高权限的同事,他们通过不断展示能力来获得信任。然而,正如早期iPhone的拟物化UI设计一样,这类类比可能只是暂时有用,但很快会被超越。

过去25年,我主要专注于构建和投资旨在改善人机交互的网络应用和软件。从明天的标准来看,许多软件都显得相当“愚钝”。(5)智能代理的出现需要全新的UI设计范式,我非常期待看到最聪明的创业者将如何定义人机交互的未来!

(1)本来我想用“智能”一词,但这会引来人们的反驳,说这些模型并不智能,只是“随机鹦鹉”,非常擅长假装智能。别喂那些喷子。😉

(2)如果你错过了,OpenAI已教会o1模型在回答之前使用“思维链”方法,这曾是o1发布之前的一种高度有效的提示技巧。

(3)因此Nvidia的股东们有了很好的对冲手段。如果未来公司在预训练模型上减少计算使用,很可能会在推理时使用更多计算……而且使用量可能大得多,因为在这种情况下,芯片需求随着用户数量增长而增长。

(4)例如,如果你想构建一个AI会计产品,并以一些自动化和大量人工介入的会计服务起步,这并不能证明太多,因为市场上已经有清晰的会计服务需求。真正的考验是看你是否能随着时间推移逐步去除人工介入。这并不意味着用人工介入起步不是一个好策略,只是初创企业验证PMF的典型步骤被反转了。

(5)趣闻:我在1997年创办的第一家互联网初创企业是一家比价引擎,使用代理从在线商店获取价格和运费信息(但这些代理并不智能)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值