AI大模型行业发展五大趋势

趋势一:大收敛与大分流,基础大模型向科技巨头收拢,而专业垂类模型“百花齐放”

如果说2023年的大模型行业还主要是初创企业的天下,那么2024年最显著的特征之一即是互联网大厂加速入局,行业的水已被搅浑。未来的格局很可能是很少量的基础大模型(开源+闭源)加上各类专业模型、行业模型的局面

2023年可谓“AI元年”,AI视觉“四小龙”(商汤、旷世、依图、云从)和大模型“六小虎”(智谱AI、MiniMax、百川智能、月之暗面、阶跃星辰、零一万物)并行发展,然而2024年,随着字节跳动等互联网大厂“跑步入场”,大模型行业已呈现明显分化趋势,互联网大厂强势攫取市场份额,“四小龙”逐渐掉队,“六小虎”背靠大厂和国资加速发展。

首先是“大收敛态势”。 基础大模型行业的烧钱属性凸显,已呈明显收敛态势,绝非中小公司能玩得起。根据财新的研究显示,训练基础大模型没有上亿美元根本上不了牌桌:高昂的研发人员工资(平均年薪接近百万美元),购买并清洗训练所需的数据(越来越稀缺),承担每天数十万美元的电费以及更为昂贵的算力费用,目前国内各家公司的融资也只是“勉强够用”。此外,为保证不被落下,基座大模型3个月就需要重新训练一次,训练一次成本约在3亿元;而一些多模态模型训练时间可能长达5~6个月,成本更高。另一方面,互联网大厂的入局加剧行业竞争。这些巨头裹挟着技术、数据、生态等优势,在算力、算法优化等方面不断突破,进一步巩固领先地位,例如字节跳动的“豆包”大模型,刚一推出就以低于行业均价99%的价格,拉开了中国云厂商大模型价格战的序幕;此后阿里云、腾讯云等厂商均被动跟进降价。据估算,豆包每天的投放花费超过900万元,即月投放成本近3亿元,此等开支也绝非一般企业能够承受的。

从电商、团购等行业历史经验看,中国市场空间极为有限,基础大模型行业类似淘天之于京东、美团之于饿了么,预计市场体量也仅容得下2~3家。云启资本合伙人陈昱认为,“大模型是极度烧钱的生意,技术巨头可以靠其他业务输血坚持,创业公司则必须融到足够多的钱才有可能活下来,而每个市场上的钱能养活的大模型创业公司,很难超过两个”。如果当前阶段没有入局并站稳脚跟的初创企业,在没有科技巨头或国家支持的前提下,冲入战局的可能性几乎为零,基础模型的行业版图基本已经确定。 故而,天下大势分久必合,预计基础模型将呈现大收敛态势,未来市场上或将剩下2~3个超大模型。

另一方面“大分流趋势”亦在深入演变。 除了基础大模型,专业和垂类大模型呈现“百花齐放”态势。基础大模型仅提供功能强大的基本的人工智能服务,若想在具体行业中实现最优效果,还需要根据特定行业场景和客户需求进行预训练和精调。此类专业和垂类大模型并非追求最先进的通用智能,而是致力于融入现实具体产业场景,最大化提升大模型和大数据结合效率。

罗汉堂总裁、阿里巴巴研究理事会学术委员会主席陈龙认为,“参数的最大化不再是绝大部分大模型的追求目标,这是因为参数越大,调用效率就越低;最好的大模型,实际上是在有限的参数下更加有效地解决现实中的问题”“实际上,这些小模型搭配具体的应用场景和数据,在特定任务上的表现不弱于通用旗舰大模型”。

如下图,利用产业内专业数据训练的小模型在特定产业内的能力测评已经超越GPT4通用模型。

(图:医疗领域,谷歌的Med-PaLM2在2023年4月发布的测评结果中优于当时最强大模型GPT4-base;法律领域,2024年7月发布的法律垂直模型SaulLM,表现优于GPT-4;金融领域,轩辕3.0在2024年9月金融场景任务的测评中,超越GPT-4o;数学领域,2024年9月发布的Qwen2.5-Math在多项数学测试中优于GPT-4o。来源:《ChatGPT两周年:领跑者的七个启示》,陈龙)

鉴于上述,目前看,AI大模型领域还很难形成个别大模型“赢者通吃”的局面,大概率会发展成为各类应用“百花竞放”的态势。

趋势二:“杠铃式”发展,AI大模型既追求“小型化、轻量化”,也寻求“大参数、高性能”

大参数、大体量、高性能的“大模型”与轻量化、小型化、灵活部署的“小模型”并行发展,是未来AI产业的重要趋势。

一方面,不论是OpenAI、Anthropic等国际顶级玩家,还是国内AI“六小虎”和豆包等后起之秀,都没有放弃追求参数更多、性能更强的大模型。高性能大模型意味着距离终极AGI(通用人工智能,Artificial General Intelligence)的目标更近一步,是各家公司技术“秀肌肉”的核心,“最强大模型”之争难有尽头。然而,超大模型的弊端也显而易见:成本更高、调用更困难、资源消耗更大,且针对专业领域的效果不佳

因此,从市场上看,目前最主流、应用最广泛的模型是更轻量、更小参数、反应速度更快的模型,如OpenAI的GPT-4o mini、Anthropic的Claude 3.5 Sonnet等,国内“六小虎”、百度、阿里、豆包等也在力推其轻量化产品。它们的性能即使不是最顶尖,支持日常应用基本也是足够的。

超大模型和轻量化模型并非相互替代的关系,而是相得益彰。 二者定位不同,满足的痛点与解决的问题也各有差别。轻量化模型的优势是保持主要功能的同时,显著降低算力消耗和能耗,以更低的成本更加深入部署到终端,能更加快速地形成网络效应,更适合移动终端和边缘计算场景,为用户提供便捷的智能体验。超大模型一方面标榜了技术上限,以及接近AGI的程度,另一方面也可以当作“教师模型”,创新工场和零一万物的创始人李开复认为,“教师模型”是超大模型一个非常重要的用处,即利用超大模型提升小模型能力,如标注训练结果,提升后训练的效果;以及生成合成数据,用作训练新模型。

趋势三:AI大模型技术放慢脚步,Scaling Law遭遇质疑,为中国“迎头赶上”创造机遇

OpenAI发展到GPT-4这一阶段,一直是通过不断扩大数据的规模来实现的,国内大模型公司此前也跟随这一技术路线:只要扩大训练参数规模,模型能力就能得到提升,即Scaling Law(规模定律,系统性能会随着规模的变化而呈现规律性变化)。然而,下一代GPT-5迟迟未能发布,Sora效果不及预期,未能继续证明Scaling Law的有效性。李开复认为,“Scaling Law明显进入收益递减(Diminishing Return)时期。不是说用更多算力和数据做不出进步,而是进步不符合投资回报”,单纯靠算力叠加所带来性能提升的“边际效益”大幅衰减

同时,Transformer架构的地位也受到诸如谷歌的Titan架构、SakanaAI的Transformer²、MiniMax最新架构等新技术路线的挑战,新架构源源不断,虽暂未对Transformer形成实质性威胁,但AI大模型发展的第二拐点来临时,是否仍是基于Transformer仍未可知。此外,正如OpenAI前联合创始人、现安全超级智能公司(SSI)创始人Ilya Sutskever所言,互联网数据资源就像化石燃料般正逐渐枯竭,虽然算力还在提升,但数据增长速度已见顶。

技术的放缓对于处于“追赶者”角色的中国公司而言,提供了极为有利的机遇。我国AI大模型产业与世界顶尖技术间的差距正在缩小。2022年OpenAI发布ChatGPT后,中国在不到一年的时间里就出现了130多个大模型,10亿参数规模以上的大模型数量超过100个,数量上远超美国。性能方面,中国的阿里云通义千问发布的Qwen2-72B模型,也足以媲美美国最强开源模型Llama3-70B。

另一方面,中国公司在前人探索的经验上,也少走了不少弯路,通过工程能力弥补了算力和技术差距。中国DeepSeek公司发布新一代开源大模型DeepSeek-v3,能力与闭源的GPT-4o相近,但训练仅需2048张英伟达H800 AI芯片,单次训练成本约为557.6万美元,仅使用了280万左右的GPU小时。对比之下,Meta发布的Llama-3-405B在类似集群上花费了3080万GPU小时,成本数倍于DeepSeek。

总体看,虽然中国企业在融资能力、估值、技术等方面处于弱势,但其“跟随策略”有效避免重蹈美国先驱企业的覆辙,以最小成本获得了最大效益,将“后发优势”发挥到极致

趋势四:AI智能体(Agent)处于爆发前夜,AI的商业设计可能比技术本身更为关键

OpenAI曾在2024年提出AI“五段论”,即AI的五个发展阶段,从最初级开始依次为:聊天机器人(Chatbots)、推理机器人(Reasoners)、智能体(Agents)、创新者(Innovators)、组织(Organizations)。经过近几年的密集成长,大模型产业发展的两个阶段已日臻成熟,即将迈入第三个阶段——AI智能体阶段,且有望将AI产业红利从基础设施端转移到应用场景端。

科技的成功不等于商业的成功。技术要融入经济体系,商业应用是其载体。 AI智能体作为AI应用的重要入口,行业需求量猛增。

2025年被认为是AI智能体的商用元年,Gartner将AI智能体列为2025年顶级技术趋势的第一名,认为其有潜力大幅提高整个组织的生产力。Gartner还预测,到2028年,至少15%的日常工作决策将通过AI智能体自主做出,而2024年这一比例尚为0%。

随着技术的不断成熟,AI Agent的应用场景还将不断拓宽。未来的AI Agent将更加智能、更加自主,并且能够处理更加复杂和多样化的任务。技术创新将不断引入新的技术和算法,提高其感知、思考和决策能力。应用拓展将使AI Agent逐渐渗透到更多领域,如智能家居、自动驾驶等,为用户提供更加便捷和智能化的服务。

面向未来,AI的商业设计可能比技术本身更为关键,AI技术目前仍缺乏“杀手级”应用,智能体的发展将为AI落地商业场景提供路径。目前,资本敏锐地捕捉到了AI智能体的发展潜力,大量资金涌入相关初创企业,为技术研发和市场推广注入强大动力。众多科技巨头也纷纷布局,加大在该领域的投入。种种迹象表明,AI智能体正蓄势待发,即将在不久的将来迎来爆发式增长,深刻变革人们的生活与工作方式。

趋势五:大收敛与大分流,基础大模型向科技巨头收拢,而专业垂类模型“百花齐放”

大模型无疑是AI产业发展中至关重要的一环,它凭借强大的语言理解与生成能力,为众多应用奠定了坚实基础。然而,尽管大模型能力卓越,却不会成为主导AI产业的唯一力量。未来AI产业格局将呈现模型方、数据方、业务方等“多方协同”发展态势。这种协同模式能够充分发挥各方优势,实现资源的优化配置和应用的深度拓展。大模型、数据、应用的组合和进化将呈现出不同维度和层次的多样化特征,涵盖产业化和个性化智能的多个方面。

从技术层面看,大模型的规模性、涌现性和泛在性是其核心特点,但未来的发展将更加注重维持Scaling Law有效性并提升其效率、理解涌现规律、多模态扩展以及个性化与效率化的提升。这些技术进步将推动AI从专用走向通用,从作坊式走向工业化生产,不断向着世界模型、脑机、具身智能、数字生命方向发展,真正成为泛AI化时代。

在应用层面,AI大模型正从单一任务、单一场景的专用AI向跨模态、跨场景、跨任务、跨学科、跨行业领域的通用性AI转变。这种转变将推动AI在文案写作、智能助理、智能客服、数字员工、机器翻译、个性化推荐、智能办公等诸多功能性场景中的广泛应用。同时,AI大模型在产业端的应用场景将从企业内部逐渐拓展至B端和C端市场,形成“场景-功能-领域-AI大模型”四位一体的应用生态体系。

总的看,大模型、数据、应用的组合与进化存在多种可能性,未来的AI也将呈现出不同维度与层次。在产业化层面,能够打造出标准化、规模化的智能解决方案,推动各行业的智能化转型;在个性化方面,可根据不同用户的需求和偏好,定制专属的智能服务。这种协同发展模式,将释放出巨大的潜力,让AI真正融入各个领域,创造出更多的价值与可能。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

https://img-blog.csdnimg.cn/img_convert/05840567e2912bcdcdda7b15cba33d93.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值