大家好,我是专注AI服务器领域的EVAN。今天在上海WAIC 2025(世界人工智能大会)现场,我可是亲眼见证了一场堪称“华山论剑”级别的技术交锋——就在商汤科技办的大模型论坛圆桌上!

那场面,啧啧,几位平时只能在论文和新闻里看到的技术大神,为了“大模型到底该怎么练?” 这个核心问题,那是真刀真枪、观点激烈碰撞!台下几百号技术人,眼睛都瞪圆了,掌声和吸气声此起彼伏。我当时就一个感觉:这趟大会门票,光看这场“神仙打架”就值回票价了!
为啥说这场“吵架”含金量超高? 因为他们吵的可不是家长里短,而是直接戳中了当前AI发展的“命门”:
模型架构怎么选? (这就好比盖房子,是选砖混还是钢结构?)
训练数据怎么喂? (数据是粮食,吃啥补啥?还是海纳百川?)
技术路线是“闭门造车”还是“众人拾柴”? (开闭源之争,永远的话题焦点)
主持这场“巅峰对决”的,是商汤科技的“大脑”之一,首席科学家林达华博士。他开场就点明了关键:“咱们大模型技术,现在走到了一个‘分岔路’口!”
林博士说,过去大半年,大模型训练的“主流玩法”正在发生关键转变——从OpenAI最早带火的“预训练为主+监督学习打辅助”模式,正在转向更强调“推理能力”提升的新路子(强化学习RL等)。这个转变,可不仅仅是换个训练方法那么简单,它关系到未来整个AI发展的方向和效率!
台上坐着的,都是大模型江湖里响当当的门派代表:阶跃星辰的技术掌门人张祥雨、上海AI实验室的书生大模型负责人陈恺、智谱华章的总裁王绍兰、范式集团的联合创始人陈雨强,还有算力巨头英伟达的全球开发者生态副总裁Neil Trevett。基础模型研发、行业落地应用、算力硬核支撑... 生态链上的关键角色都齐了!
短短30分钟,大佬们你来我往,字字珠玑。每一句争论背后,都是对未来技术路线和产业格局的深刻思考,也直接关系到我们这些搞AI基础设施(比如服务器)的人,未来该往哪儿使劲儿。
接下来,我就带大家复盘下这场“顶流辩论”的精华火花,看看大佬们对“大模型修炼之道”的真知灼见,绝对让你收获满满,看清方向!

预训练 VS 强化学习,大模型修炼的“文武之道”?
刚才说到大佬们“吵”的起点,核心就是:大模型这身“功夫”,到底该怎么练? 是闷头“打基础”(预训练),还是苦练“实战技巧”(强化学习,RL)?这直接关系到模型是“书呆子”还是“真高手”!
1. OpenAI 的“变招”:从猛练内功到精修招式
早期“唯预训练论”: 回想 GPT-4o 时代,OpenAI 几乎把“家底”(算力)全砸在“打基础”(预训练)上了。那时大家普遍认为:基础不牢,地动山摇!预训练不足,模型的天花板就被锁死了。
o1 的“新思路”: 但到o1,OpenAI 亮出了新招:在“打基础”之后,再用“实战演练”(强化学习)精修一下,推理能力(也就是动脑筋、解题的能力)能猛涨!
这就像练武:光扎马步、练套路(预训练)不够,还得找人切磋、实战对打(RL),才能真正提升战斗力(推理能力)。
他们拿出了一张关键“成绩单”:

左边: 老规矩,训练时间越长(砸更多算力、烧更多钱),模型越强 —— 这大家熟。
右边: 新发现! 在“考试”或者说“实战解题”时(Test Time),允许模型“多想想”(投入更多计算量进行推理),它的表现也能蹭蹭涨! 这打开了一扇新的大门:模型变强,不仅靠“练多久”(训练时间),还能靠“考场上多想会儿”(推理时计算)!
OpenAI 的“预言”: 他们觉得,未来提升模型的关键,可能不再是单纯堆预训练,而是让“实战演练”(强化学习计算)唱主角! 连他们的前首席科学家 Ilya 都放话:纯“打基础”(预训练)的时代要翻篇了!
2. 大佬激辩:基础要打牢,还是实战出真知?
这“变招”一出,自然引发热议:“基础”(预训练)和“实战”(RL),到底怎么平衡?钱(算力)该往哪边花?
张祥雨(阶跃星辰):看好“实战派”潜力,但得升级“陪练”
·肯定“三步走”: 先打基础(预训练),再规范动作(监督微调SFT),最后实战演练(RL)—— 这条路子合理!
·“打基础”的本质: 就是海量“知识”(语料)的超级压缩包。压缩得好,模型内部知识结构就扎实,理解世界更透彻。(这就像建数据库,是根基!)
·“打基础”的局限: 但它主要是“模仿秀”(基于 Next Token 预测的行为克隆)。模仿再像,也难真正“创新破局”! 为啥?因为它目标是“复刻已知”,而真正的“解题高手”(推理能力),需要自己找到一条逻辑严密的“通关路径”(因果链)。这就是RL的用武之地!
·未来关键: 怎么让“实战陪练”(RL)听懂人话? 现在RL主要在数学、代码这种有“标准答案”的领域效果好。未来要处理更模糊的自然语言反馈(比如用户说“这答案不太对味”),才是大挑战和突破口!
·他的“大招”建议: 把“实战演练”(RL)直接搬进“打基础”(预训练)阶段! 特别是在模型“考试/解题时”(Test Time),用RL动态增强推理能力 —— 这想法脑洞大开,极具启发性!
陈恺(上海AI实验室):根基不稳,实战白搭!RL挑战巨大
·强调“基础”为王: “实战演练”(RL)能玩得转,前提是你得有个好苗子(强大的冷启动模型)! 这苗子怎么来?靠的就是扎实的“打基础”(预训练)! 预训练质量越高,给RL提供的“起点”越好,它能探索的“招式”(可能性)才越多,效果才越猛。(服务器销售注意:好苗子靠强大算力堆预训练!)
·RL的“阿喀琉斯之踵”:怎么评分?
现在RL主要在有标准答案的“考试”(如填空、解题)上牛。但现实世界很多任务没有唯一解(比如写篇打动人的文案、做个创新设计)。“评分标准”(奖励机制)成了大难题! (呼应了张祥雨指出的自然语言反馈问题)
未来得发明新“裁判规则”(评价标准),或者让模型在真实环境里摸爬滚打拿反馈(环境交互)。
·给基础设施“上强度”:
RL 是个“算力黑洞”! 它需要模型不断试错、探索、学习,效率目前还不高。
如果未来RL还要依赖实时“对战反馈”(交互反馈),那对“陪练场”(基础设施)的要求将指数级飙升!** 算力、网络、存储… 压力山大!

Transformer 的“八年王座”,开始松动了?
大佬们吵的另一个硬核话题,直指大模型的“筋骨”——模型架构。这就好比盖摩天大楼,你是用钢筋混泥土(Transformer),还是想试试新型材料(其他架构)?
Transformer 架构,绝对是AI圈的“老牌顶流”。从2017年出道至今,统治江湖整整八年!GPT-2、ChatGPT、DeepSeek-V3、LLaMA 4... 这些你耳熟能详的“大模型明星”,甭管能力多强,核心骨架基本还是Transformer那套。
但是!当模型规模膨胀到千亿参数,上下文窗口拉长到百万Token(相当于几十万字的小说),Transformer这位“老大哥”也开始喘粗气了:
·“算力黑洞”问题: 它最核心的“自注意力”机制,计算量跟序列长度是平方关系!序列翻一倍,计算量和内存占用直接翻四倍!这谁顶得住?(服务器电费账单看着都肉疼!)
·“内存大户”问题: 运行时要存大量中间状态和KV缓存,显存(GPU的内存)分分钟被塞爆,成了性能瓶颈。
·“健忘症”问题: 缺乏明确的长期记忆机制。遇到需要多步推理或者跨文档找线索的复杂任务,就容易“抓瞎”,小样本学习能力蹭蹭往下掉。
面对这些挑战,技术大牛们兵分两路开“卷”:
·“改良派”:在Transformer框架里“精装修”!
···位置编码升级: 从最初的“固定座位号”(绝对位置编码),进化到更灵活的“旋转座位卡”(RoPE)。
···注意力机制“瘦身”: 从标准的“多头注意力”,换成更省资源的“分组查询注意力”(GQA),效率更高。
···激活函数“换新”: 把GELU换成计算更快、效果可能更好的SwiGLU。
···成果显著: 像DeepSeek V3就证明,把Transformer优化到极致,能大幅降低训练和推理的真金白银成本!(这对我们搞服务器的,意味着客户需求更明确、预算更高效!)
·“革新派”:直接换个地基,盖新楼!
···Mamba系列: 用“状态空间模型”(SSM)这门新技术,实现了线性复杂度!序列再长,计算量也只是平缓增长,延迟更低,推理更可控,专克Transformer的“算力黑洞”。
···RetNet、RWKV: 融合了RNN(擅长记忆)和Transformer(擅长并行计算)的优点,想鱼与熊掌兼得,在效率和能力之间找黄金平衡点。
···混合设计成趋势: 比如AI21 Labs的Jamba,直接玩“混搭风”,把经典的Transformer模块和创新的Mamba模块拼在一起,博采众长。
这就引出一个灵魂拷问:未来大模型的“地基”,到底该选谁?是继续深耕Transformer,还是另起炉灶?
对此,阶跃星辰首席科学家张祥雨的观点非常犀利:
“架构本身不是神,它得为系统和算法打工!” 他认为,Transformer架构本身没问题,能流传至今成为经典,自有其道理。
BUT!时代变了! 张博士点出关键:
·算法在转向强化学习(RL): 训练方法变了,不再是纯“填鸭式”(预训练+监督学习),更强调“实践出真知”(与环境交互学习)。
·应用场景在转向智能体(Agent)时代: AI不再是单纯“答题机”,而要像人一样能自主行动、持续学习、适应环境。
智能体的核心需求是什么?——是“无限流”或“无限上下文”的建模能力! 它得像人脑一样,能处理源源不断的信息流,建立长期记忆和关联。
张博士预言:在这种需求下,传统Transformer架构可能遇到瓶颈。而一度被认为“过时”的RNN(循环神经网络)架构,其擅长处理序列和记忆的特性,反而可能在下一代架构设计中“王者归来”,成为重要的考虑因素!

大模型“闹饥荒”?真实数据快吃光,合成数据是解药还是毒药?
吵完“筋骨”(架构),大佬们立马转向大模型的“粮食”问题——数据!这绝对是AI发展的命脉。
想象一下: 当年AlexNet靠ImageNet“一炮而红”,Transformer靠着“吞下”整个互联网数据量级起飞。但今天,一个残酷的现实摆在眼前:互联网上的“好粮食”(高质量语料),快被大模型们“吃干榨净”了!
这不是危言耸听:
·优质粮仓”见底了: 能爬的优质网页、书籍、代码基本都爬遍了,新增的好东西越来越少。
·版权围栏”拦路: 很多有版权、涉隐私的好数据,看得见摸不着,卡住了垂直领域模型的脖子。
·研究发出警告: 如果大模型继续这么“海吃海喝”,到2028年左右,现有“存粮”可能被彻底吃光! 到时候,依赖“大数据”的模型发展可能直接“卡壳”。

“粮食危机”逼出“新路子”:合成数据!
国内外大厂(Anthropic、OpenAI、Meta、Google DeepMind等)都在猛攻这个方向:让AI自己“生”数据! 简单说,就是用训练好的模型,生成大量类似的新数据,再喂给下一代模型。有点像“自己种菜自己吃”。
BUT!合成数据真是“万能灵药”?现场大佬们泼了冷水——它可能是把“双刃剑”:
·“AI吃坏肚子”风险: 顶级期刊《自然》去年就警告:如果放任模型“近亲繁殖”(只用合成数据训练),几代之后,AI输出的内容就可能崩坏成一堆“胡言乱语”! (想象一下:用AI生成的小说训练下一代AI写手,风格越来越跑偏…)
·“失真”陷阱: 生成模型本身可能有缺陷、偏见或“盲区”,它“生”出来的数据,能保真吗?
英伟达大佬Neil Trevett现身说法: 他们搞图形生成和物理仿真,也常被“稀缺、昂贵、敏感”的真数据卡脖子(比如真实的罕见车祸现场、机器人突发故障数据)
英伟达的解法很“硬核”:玩“高科技模拟”!
·用强大的物理引擎仿真各种极端场景(比如模拟1000种车祸、机器人摔跤),生成海量“合成数据”当训练素材。这就像给AI建了个“高级驾校”或“故障模拟实验室”。
·Neil重点强调:合成数据不能“闭门造车”!必须配“三道保险”:
···真实世界验证闭环: 合成数据练出来的模型,得放到现实环境里“真刀真枪”测试。
···Human-in-the-loop(人在回路): 关键时刻,还得靠人类专家把关、纠偏。
···融合新技术: 自监督学习、主动学习、混合训练流程,都是提升数据利用效率的“神器”。
智谱华章总裁王绍兰,则从另一个角度“破局”:
·“数据荒”?可能是“挑食”造成的! 王总认为,预训练数据的关键可能不是“量不够”,而是“质不高”!当初“囫囵吞枣”吃下的互联网数据,杂质太多、营养不均衡。
·“行业金矿”被忽视了! 真正的“富矿”藏在各行各业手里——大量专业、高价值的行业数据,根本还没被好好用来训练模型! 想大模型在医疗、金融、制造等领域真正落地?必须用“行业特供粮”重新预训练!
·合成数据有用,但非万能: 对于一些极端稀缺甚至不存在的场景数据(比如罕见病影像、核电站内部故障),合成和仿真是唯一出路。但仿真不真,数据就“歪”,练出来的模型也“瘸”。背后工程挑战巨大。
·王绍兰的“王炸建议”引爆掌声: 呼吁在保障安全(非敏感、非涉密)前提下,建立行业数据共享联盟! 把散落在各家的“行业弹药”集中起来,为大模型落地提供充足、靠谱的“火力支援”!(这对我们服务器商意味着:私有化部署、行业专属云的需求要爆了!)

两条腿走路!基础模型“打地基”,Agent“盖高楼”,一个都不能少!
吵完“筋骨”(架构)、“粮食”(数据),大佬们的辩论焦点,自然落到了大模型的“终极使命”上——是做深不可测的“世外高人”(基础模型),还是做能搬砖干活的“金牌打工人”(Agent)?
2025年,一个肉眼可见的趋势是:
·“造神运动”降温: 千亿、万亿参数的“基础大模型”研发,速度明显放缓了。
·“打工人”爆发: 能自动干活的AI Agent(智能体)成了绝对爆点!OpenAI的Operator、深度研究的ChatGPT Agent、智谱的AutoGLM沉思...国内外大厂纷纷亮出自家“AI员工”!
这背后是行业的清醒: 大模型不能光在实验室“炫技”,得真正下场干活、创造价值、闭环赚钱了!但同时,那些志在“造出真正人类级AI”(AGI)的“理想派”公司,基础模型的探索也绝不会停。
关键问题来了:公司资源有限,是继续砸钱“造神”?还是全力搞“AI打工人”落地?
智谱华章总裁王绍兰拍板:小孩子才做选择,成年人全都要!
·“地基”还得打深: 王总直言,当前大模型顶多算“自动驾驶L3水平”——能做些基础推理(预训练、对齐),刚摸到点“反思”(深度推理)的门槛,离真正的AGI(全知全能)差得远!就算GPT-5来了,也还是“在路上”。智谱的GLM系列(语言、多模态)迭代不会停。
·“高楼”必须开建: 模型的价值在于“用”! 不能只活在论文里。Agent就是让大模型“变身”生产力工具的关键形态!各行各业的大佬们,也得赶紧换上“大模型思维”,拥抱这场效率革命。
第四范式联合创始人陈雨强,从落地实战角度补刀:
·“别光造轮子,先学会开车!” 技术迭代太快,想保持竞争力,关键是用好现成的(开源/闭源)模型,快速做出价值。
·警惕“数据污染”新危机: 陈总爆出猛料:现在网上超过30%的内容,已经是AI生成的“二手信息”了! 这带来大问题:
···人为破坏风险: 有人故意喂AI“毒数据”。
···评估体系失真: 像Arena这类模型评测工具,用户可能只关心“答案像不像人话”(排版好、语气对),而不是“答案对不对”!这导致“AI垃圾食品”可能得分更高,加剧数据偏差。
·落地硬骨头:金融等场景是真考验! 举个栗子:反欺诈要实时处理每天十亿级的交易记录!现在的大模型,就像让“大学教授”去数“海滩上的沙子”——算力、效率、架构都面临极限挑战。(服务器视角敲黑板:这种高并发、低延迟场景,对硬件是地狱级考验!)
陈雨强总结: 想在大规模、高敏感行业(如金融)真正落地,必须在基础模型能力、数据质量、工程架构上持续突破,没有捷径!
(服务器销售划重点: Agent爆发 ≠ 基础模型过时!相反:
·“造神”派需要顶级算力攻坚前沿模型。
·“打工人”派需要稳定、高效、能处理海量实时数据的服务器集群(尤其金融、工业场景)。
·“两条腿走路”的公司,对算力需求更是复杂多样——既要训练“大脑”,又要驱动“手脚”。选服务器,必须懂客户的战略重心是“探索未来”还是“赢在当下”!
说到底,基础模型是“发动机”,Agent是“超级跑车”。没有顶级发动机,跑车只是花架子;没有好跑车,发动机再强也上不了路! 作为“卖发动机”的我们,得帮客户配好最适合的“动力总成”!)
神仙打架终章:开源 vs 闭源!免费“共享引擎”,真能逼出行业极限?
这场火药味十足的圆桌,最后压轴登场的是个“老冤家”话题——大模型,到底该“开源”还是“闭源”? 这可不是简单的“免费 vs 收费”,它直接关系到技术路线怎么选、生态怎么建、甚至未来AI谁主沉浮!
AI江湖,历来分两派:
“闭源独行侠”: 像OpenAI(GPT-3之后彻底关门),手握“独门秘籍”,闷声练大招。
“开源众筹派”: LLaMA、DeepSeek、通义千问、Kimi... 这些名字你肯定熟!他们把模型“配方”公开,邀请全球开发者一起“炼丹”!结果呢?开源模型的性能,正以肉眼可见的速度逼近甚至局部反超闭源大佬!
这里必须点名“优等生”DeepSeek: 它家的开源模型,不仅实力能打,关键是部署成本巨低!在全球圈粉无数,甚至开始动摇“英伟达GPU + 闭源模型”这条传统AI产业链的根基!未来,开源闭源这场“擂台赛”,只会越打越精彩!
上海AI实验室的陈恺(刚开源了“书生”科学大模型),是坚定的“开源布道者”:
开源是“资源优化大师”: 避免大家重复造轮子,钱和人才往真正该砸的地方流!
开源未必是“天下第一”,但绝对是“行业鞭策王”! 陈博士点破关键:如果闭源大佬的“独门秘籍”还打不过开源社区的“共享成果”,那你的存在价值,是不是该打个问号? 这种压力,逼着整个行业跑得更快、更高效!
算力巨头英伟达的Neil Trevett,态度更“务实中立”:
“我们拥抱开源!” 英伟达投入巨大,用顶级芯片和工具链,给开源大模型训练和落地“踩油门”(想想CUDA对生态的贡献!)。
BUT!开源不是“万能钥匙”: Neil提醒:企业得算清自己的账——开源真能省钱吗?会不会把“看家本领”泄露给对手?未来很可能是“混合模式”的天下:关键核心技术闭源保优势,部分能力开源建生态。
开源也有“成长的烦恼”: 模型“分家”(Fork)、版本混乱、甚至被滥用... 这些新问题,需要整个行业一起想办法治理。
至此,这场由商汤科技主办的“模型之问”圆桌,在掌声中落下帷幕!
回顾这场“神仙打架”:
从模型怎么练(训练范式),吵到筋骨怎么造(架构演进);
从粮食危机(数据枯竭),争到生存哲学(开源闭源);
最后聚焦终极使命——是当“世外高人”(基础模型)还是“金牌打工人”(Agent)?
30分钟,火花四溅!没有客套,全是硬核观点对撞!
这或许正是AI行业走向成熟的标志: 当最顶尖的大脑们,敢于在阳光下公开“吵架”,把分歧、挑战、思考摊开来讲,这个行业,才算真正“长大”了。
(服务器销售终极感悟: 无论开源闭源、Agent还是基础模型... 算力,永远是AI革命的“底层燃料”! 大佬们吵得越凶,技术迭代越快,对我们“卖发动机”的要求就越高——得更懂技术趋势、更懂客户痛点、更快匹配最优算力方案! 这场盛宴,我们准备好了!)
1820

被折叠的 条评论
为什么被折叠?



