开源,AI创新的最大变量
如果说闭源的商业大模型(如GPT系列、Claude系列)定义了人工智能技术所能触及的高度,那么开源大模型则决定了这项革命性技术普及的广度与深度。进入2025年,开源生态已经不再是商业模型的“影子”或“替代品”,而是成长为一股足以与之分庭抗礼、甚至在某些维度上实现超越的强大力量。它极大地降低了AI技术的准入门槛,使得全球数以百万计的开发者、研究人员和中小企业能够自由地访问、修改和部署最先进的模型,从而催生了难以估量的创新应用。开源,已成为驱动整个AI领域向前发展的最大变量。
本文将深入探索2025年全球开源大模型的宏大生态图谱,描绘一幅由顶尖模型、权威评测、核心平台和活跃社区共同构成的全景画卷。我们将重点探讨以下几个核心议题:
全球开源模型的竞争格局:我们将聚焦于2025年开源领域的“四强争霸”——由Meta的Llama、智谱的GLM、阿里巴巴的Qwen和异军突起的DeepSeek所构成的三足鼎立之势。详细剖析这些顶级模型家族的技术特点、性能表现和生态策略,并展示中国开源力量如何在全球舞台上实现历史性崛起。
模型评测体系的演进:在“百模大战”的喧嚣中,科学、客观的评测体系是去伪存真、指引方向的“灯塔”。我们将系统梳理以LMSYS Chatbot Arena、MMLU、GPQA为代表的国际权威评测基准,以及SuperCLUE、C-Eval等中文评测体系的最新发展,并基于这些评测结果,呈现一份2025年开源大模型的实力榜单。
核心分发平台的双雄会:模型的创新离不开分发平台的支撑。我们将对比分析全球最大的AI社区Hugging Face与中国本土的“模型即服务”平台ModelScope(魔搭社区)的战略定位、生态特色和对开发者的核心价值,探讨它们如何共同塑造了开源模型的流通与协作范式。
技术趋势与未来展望:我们将总结2025年开源模型在多模态、模型尺寸、推理能力等方面的关键技术趋势,并展望开源生态的未来走向。开源与闭源的竞争将如何演化?中国开源力量在全球生态中将扮演怎样的角色?
本章旨在为开发者提供一份详尽的开源大模型“寻宝图”和“兵器谱”。通过理解不同模型的优劣、掌握权威的评测方法、善用核心的开发平台,开发者可以更好地在开源的世界里汲取养分、贡献智慧,并最终将开源的力量,转化为推动自身业务和整个社会进步的强大动能。对于算泥社区而言,深度融入并服务于这个开放、竞争、共荣的生态,是其作为AI开发者社区的核心使命。
一、开源大模型的“四强争霸”:Llama、GLM、Qwen与DeepSeek的巅峰对决
2025年的开源大模型领域,告别了早期百花齐放但略显混沌的局面,进入了由少数顶级玩家主导的、竞争异常激烈的成熟阶段。昔日由Meta Llama系列一家独大的格局被彻底打破,来自中国的阿里巴巴Qwen(通义千问)和DeepSeek(深度求索)异军突起,以及GLM(智谱)以惊人的迭代速度和强大的性能表现,与Llama形成了相互赶超的“四强争霸”新格局。这场巅峰对决,不仅是技术实力的比拼,更是生态战略和社区影响力的全面较量,深刻地塑造了全球AI开源的版图。
1.1Llama系列:开源世界的“昔日王者”与“规则奠基者”
由Meta AI发布的Llama系列,是无可争议的开源大模型时代的开创者。从Llama 1到Llama 2,再到2024年发布的Llama 3,它一次又一次地为开源社区带来了接近甚至媲美当时最强闭源模型的强大能力。Llama的成功,不仅在于其模型本身的性能,更在于它为开源生态奠定了关键的“游戏规则”:
开放的许可证:Llama系列采用的相对宽松的商用许可证,极大地激发了社区的创新和商业化应用的热情。
完善的生态工具:Meta围绕Llama发布了包括llama.cpp、llama-recipes在内的一系列工具,极大地降低了模型的部署和微调门槛。
社区的基石:无数的开源项目、学术研究和创业公司都是基于Llama系列构建的,它成为了整个生态的技术基石和事实标准。
然而,进入2025年,Llama“一家独大”的地位受到了前所未有的挑战。尽管其后续版本(如传闻中的Llama 4)仍在研发中,但在公开的竞技场上,其更新速度和性能提升的幅度,似乎已难以完全压制来自东方的新兴力量。Llama的角色,正逐渐从“一骑绝尘的领跑者”,转变为“实力雄厚的守擂者”和整个开源生态的“压舱石”。
1.2 Qwen系列:阿里巴巴的“集大成者”与“全能选手”
由阿里云智能推出的Qwen(通义千问)系列,是展现中国科技巨头在AI领域系统性实力和战略雄心的集大成之作。Qwen的崛起之路,体现了其对开源生态的深刻理解和全面布局。
模型家族的“军团式”作战:与Llama类似,Qwen也推出了一个庞大的模型家族。其最新的Qwen3系列在模型阵容上实现了显著扩展,推出了包括Qwen3-Max、Qwen3-Next等在内的七大模型,覆盖了基础大模型、编程、多模态等全场景。参数规模上,也推出了高达235B的混合专家(MoE)模型,在保持高性能的同时提升了效率。这种“军团式”的发布策略,持续满足着开发者从端侧部署到云端高性能计算的各种需求。
性能的持续登顶:Qwen系列在各大权威评测榜单上表现极为抢眼。其最新模型在被誉为“模型界世界杯”的LMSYS Chatbot Arena匿名对战平台上,斩获了全球第三的排名,创下了开源大模型的史上最高分,甚至超越了诸多顶尖闭源模型。更令人瞩目的是,该模型还一举夺得了数学、代码、复杂提示、长文本检索、指令遵循等5项关键能力的全球第一。这充分证明了其在真实应用场景中的强大实力。
深度融合的本土化生态:Qwen的背后是阿里巴巴强大的云计算和产业生态。它与阿里云的灵积平台、百炼MaaS平台、以及国内最大的模型社区ModelScope(魔搭)深度融合。这个生态也在飞速成长,截至目前,阿里已开源300余个模型,累计下载量超过6亿次,衍生模型数量达到17万个,成为中国企业用得最多的大模型之一。这种无缝的生态整合,为国内开发者提供了从模型下载、微调、部署到应用开发的全链路支持,是Qwen在国内快速普及的关键。
1.3 DeepSeek:异军突起的“技术黑马”与“效率革命者”
如果说Qwen代表了巨头稳扎稳打、全面推进的“正规军”,那么由创业公司“深度求索”推出的DeepSeek系列,则是一匹凭借极致的技术创新和对开发者需求的深刻洞察而异军突起的“黑马”。
极致的性价比与推理效率:DeepSeek从诞生之初,就将“让AI更普惠”作为核心目标。其模型在设计上极为注重推理效率和成本效益。例如,其DeepSeek-V2模型创新性地采用了混合专家(MoE)架构,并结合了多头注意力(MLA)等先进技术,在保持与顶级模型相当性能的同时,极大地降低了推理时的计算量和显存占用。这使得在相同硬件上部署DeepSeek模型可以获得更高的吞-吐量,从而显著降低AI应用的服务成本。
代码能力的“单点突破”:DeepSeek在创业早期,选择将“代码生成”作为其技术突破的尖刀。其DeepSeek Coder系列模型,通过在海量高质量代码数据上的精心训练,展现出了惊人的代码理解和生成能力,在多个代码能力评测基准上一度超越GPT-4等闭源模型,为其赢得了全球开发者的广泛赞誉和初始用户基础。
全球化的社区影响力:凭借其出色的性能和鲜明的技术特色,DeepSeek迅速在全球最大的开发者社区(如Hugging Face、GitHub)中获得了极高的关注度。2025年初,其官方App一度登顶中美等140多个国家和地区的苹果应用商店榜首,这对于一个创业公司的开源模型而言,是前所未有的成就,也标志着中国开源AI力量在全球范围内赢得了用户的直接认可。
1.4 GLM-4.5:原生融合智能体的“技术破局者”与“成本颠覆者”
如果说Qwen代表了巨头稳扎稳打的“正规军”,DeepSeek是异军突起的“技术黑马”,那么智谱推出的GLM-4.5则凭借原生融合的智能体架构和极致的成本控制,成为大模型领域的“破局者”。
原生融合的智能体架构:GLM-4.5最核心的突破在于全球首个在单模型中原生融合推理、编码和智能体三大能力的架构。与传统“单项冠军”型模型不同,GLM-4.5像培养既懂理论又能实操的“全科医生”,在单一模型中实现了智能体能力、复杂推理和编程能力的黄金三角融合。其混合推理引擎具备双模式设计——思考模式适用于数学/科学/多步工具调用等复杂任务,采用长链式思维;直答模式则针对聊天/翻译/简单问答等场景,实现低延迟响应。
卓越的参数效率与性能表现:GLM-4.5在参数利用效率上实现了显著突破。其采用MoE稀疏激活架构,其中满血版GLM-4.5总参数量3550亿,激活参数仅320亿;轻量版GLM-4.5-Air总参数1060亿,激活120亿。尽管参数量仅为DeepSeek-R1的1/2、Kimi-K2的1/3,但在12项权威评测中拿下综合平均分全球第三、国产模型第一、开源模型榜首。
极致的成本效益与生成速度:GLM-4.5在成本和效率上实现了双重突破,堪称“价格屠夫”。其API调用价格低至输入0.8元/百万tokens、输出2元/百万tokens,仅相当于Claude的十分之一,GPT-4 Turbo的五分之一。同时具备极速生成体验,最高生成速度达到100 tokens/秒,写代码时几乎感觉不到延迟,字符实时输出。
卓越的代码与智能体能力:GLM-4.5在真实场景中展现出碾压性优势。在Agentic Coding的盲评测试中,GLM-4.5在52个编程开发任务上的表现达到国内最佳。与Claude-4-Sonnet、Kimi-K2、Qwen3-Coder对比,在大部分场景中可以平替Claude-4-Sonnet。其全栈开发能力突出,能够快速生成复杂的应用、游戏、交互网页,只需简单提示词就能生成真正可用的网站。

总而言之,2025年开源大模型的竞争,已经从单纯的“刷榜”进入到技术、生态、社区和商业模式的全方位比拼。Llama、GLM、Qwen和DeepSeek所代表的不同发展路径共同构成了一个充满活力、相互促进的动态平衡。这场巅峰对决的最终受益者,将是广大的AI开发者,他们拥有了前所未有的丰富选择,可以根据自己的应用场景、性能需求和成本预算,自由地挑选最合适的“神兵利器”,来构建属于自己的智能未来。
二、 “是骡子是马,拉出来遛遛”:2025年模型评测体系解读
在AI大模型层出不穷、技术宣传天花乱坠的2025年,如何科学、客观、公正地评价一个模型的能力,成为了开发者、研究者和使用者共同面临的核心问题。一个健全、权威的评测体系,就如同AI世界的“度量衡”和“奥林匹克”,它不仅为模型的迭代指明了方向,也为用户的选择提供了重要的参考依据。经过几年的发展,全球AI社区已经形成了一套由客观学术基准(Objective Benchmarks)和主观人类偏好对战(Human-Preference Arenas)共同构成的、日益完善的立体化评测体系。
2.1 客观学术基准:衡量模型能力的“高考”
客观学术基准通常由一系列标准化的、涵盖不同学科和能力维度的题库构成,模型在这些题库上的得分,可以量化地反映其在特定领域的知识水平和推理能力。它们就像一场严格的“高考”,系统性地检验着模型的“智商”。
1. 国际通用基准的演进
MMLU (Massive Multitask Language Understanding):作为最经典、最广泛使用的评测基准之一,MMLU涵盖了从初等数学到美国历史、从计算机科学到职业法律等57个不同学科的考试题目。它旨在衡量模型掌握的人类知识广度。2025年,几乎所有新发布的模型都会将MMLU作为必考科目,其得分高低已成为衡量模型基础能力的重要指标。
GPQA (Graduate-Level Google-Proof Q&A):为了测试模型真正的推理能力,而非仅仅依赖于训练数据中的“记忆”,研究者们设计了GPQA。这个基准包含了由相关领域博士生都难以轻易回答的、高难度的科学问题。这些问题经过精心设计,难以通过简单的搜索引擎找到答案,因此能更真实地反映模型的深度推理和问题解决能力。
MATH & GSM8K:这两个基准专注于衡量模型的数学能力。GSM8K包含小学水平的数学应用题,而MATH则涵盖了代数、几何、微积分等更高级的数学竞赛级难题。模型在这些基准上的表现,是其逻辑推理和符号运算能力的重要体现。
HumanEval & MBPP:这两个基准是衡量模型代码生成能力的核心标准。它们提供一系列编程问题(函数签名和文档字符串),要求模型生成能够通过单元测试的Python代码。模型在这些基准上的“Pass@k”得分,直接反映了其作为编程助手的实用价值。
多模态基准的兴起:随着多模态模型成为主流,专门用于评测其图文理解能力的基准也应运而生。MMMU (Massive Multi-discipline Multimodal Understanding)、MathVista(视觉数学推理)、MM-Bench等,通过提供包含图表、公式、照片的复杂问题,全方位地考察模型的跨模态理解和推理能力。
2. 中文评测基准的深耕
为了更精准地评估模型在中文语境下的能力,中国研究者也开发了一系列高质量的中文评测基准。
C-Eval:由上海交通大学、清华大学等联合推出的C-Eval,是目前公认的最权威的中文基础模型评估套件之一。它对标MMLU,涵盖了从人文社科到理工农医的52个学科,共计约1.4万道题目,全面地考察了模型对中国本土化知识的掌握程度。
SuperCLUE:作为国内最早的中文大模型评测基准,SuperCLUE在2025年已经发展成为一个综合性的评测体系。它不仅包括像C-Eval这样的客观选择题(OPT基准),还创新性地引入了开放式问题(OPEN基准)和匿名对战平台(“琅琊榜”),从多维度对模型进行评估。
CMMLU (Chinese MMLU):这是专门针对MMLU进行的中文翻译和适配版本,旨在更公平地评估模型在中文环境下的多任务能力。

2.2 主观人类偏好对战:检验模型“情商”的“罗马斗兽场”
客观学术基准虽然能量化模型的“智商”,但却难以衡量模型的“情商”——例如,它的回答是否有趣、有帮助、是否符合人类的交流习惯。为了弥补这一不足,以LMSYS Chatbot Arena为代表的匿名、随机对战平台应运而生。
工作机制:在Chatbot Arena网站上,用户可以同时与两个匿名的AI模型进行对话。在对话结束后,用户根据自己的主观感受,投票选出哪个模型表现更好,或者宣布平局。平台会收集大量此类“对战”数据,并使用类似于国际象棋等级分(Elo Rating)的算法,为每个模型计算出一个动态变化的“天梯排名”。
评测的价值:
真实世界表现:Chatbot Arena的排名直接反映了模型在真实、开放式对话场景中给用户的综合体验,这是任何客观题库都无法替代的。
“情商”与对齐:一个模型即便在MMLU上得分很高,但如果它的回答冗长、刻板、或者经常拒绝回答,那么在Chatbot Arena上的排名也不会高。这个平台极大地推动了模型厂商在“对齐”(Alignment)技术上的投入,让模型更“乐于助人”、更符合人类偏好。
发现“黑马”:由于其匿名和众包的特性,Chatbot Arena常常能发现一些在学术榜单上并不突出、但在实际体验中表现惊艳的“黑马”模型,为社区提供了更多元的视角。
2025年,LMSYS Chatbot Arena的排名已经成为与MMLU得分同等重要的、衡量一个模型综合实力的“金标准”。一个模型只有同时在“高考”(客观基准)和“真人秀”(对战平台)中都取得优异成绩,才能被公认为真正的顶级模型。
2.3 如何看待“刷榜”现象?
随着评测体系的日益重要,一些模型为了追求更高的排名,可能会针对性地对评测数据集进行“污染”(即在训练数据中加入了评测题目)或“过拟合”(即专门优化模型在特定题型上的表现)。这种“刷榜”行为,虽然能在短期内提升排名,但却损害了评测的公正性和模型的泛化能力。
为了应对这一挑战,评测体系自身也在不断进化:
持续更新题库:GPQA等基准的设计初衷就是“Google-Proof”,其题目会持续更新,确保模型无法通过简单记忆来作弊。
引入私有测试集:许多评测平台(如SuperCLUE)会保留一部分不对外公开的私有测试集,用于最终排名的计算。
强调综合与交叉验证:单一基准的排名参考价值有限。一个真正强大的模型,应该是在多个不同类型、不同来源的基准上都能持续取得好成绩。因此,开发者在评估模型时,应综合参考MMLU、GPQA、Chatbot Arena等多个榜单的结果,进行交叉验证。
总之,一个科学、多元、不断进化的评测体系,是整个AI开源生态保持健康、持续创新的基石。对于开发者而言,理解这些评测基准背后的设计思想和能力导向,不仅能帮助自己更好地选择模型,也能指导自己如何更有效地对模型进行微调和优化,从而在AI开发的道路上“知己知彼,百战不殆”。
三、模型的“军火库”与“集市”:Hugging Face与ModelScope的双雄会
如果说优秀的开源模型是开发者手中的“神兵利器”,那么模型分发与协作平台就是汇集天下兵器的“军火库”和供开发者自由交易、交流的“大集市”。它们为模型的存储、发现、使用和协作提供了至关重要的基础设施,是连接模型开发者与模型使用者的核心桥梁。在2025年的全球开源生态中,Hugging Face和ModelScope(魔搭社区)作为两大具影响力的平台,分别代表了全球化社区和本土化生态的两种不同范式,形成了“双雄会”的格局。
3.1 Hugging Face:全球AI社区的“事实标准”与“数字圆桌”
总部位于纽约的Hugging Face,自成立以来就以其开放、协作的理念,迅速成长为全球最大、最活跃的AI社区和模型中心。到2025年,它已经不仅仅是一个模型下载网站,而是一个集模型、数据集、代码库、演示空间、开发工具于一体的、一站式的AI协作平台,是全球AI开发者心中当之无愧的“圣地”。
Hugging Face的核心价值体现在以下几个方面:
海量的模型与数据集资产:截至2025年,Hugging Face平台托管了超过100万个模型、25万个数据集和30万个应用(Spaces)。无论是顶级的Llama、Qwen,还是小众的学术研究模型,几乎所有重要的开源模型都会第一时间在Hugging Face上发布。这种无与伦比的资源广度,使其成为开发者寻找和发现AI资产的第一站。
标准化的transformers库:Hugging Face推出的transformers库,已经成为加载和使用预训练模型的事实标准。它提供了一套统一、简洁的API,让开发者可以用短短几行代码就加载和运行来自不同机构、不同架构的模型。这种标准化极大地降低了模型的使用门槛,促进了模型的互操作性和生态的繁荣。
强大的社区协作与发现功能:Hugging Face为每个模型都配备了详细的“模型卡片”(Model Card),其中包含了模型的介绍、用法、限制和评测结果。用户可以在模型页面下进行讨论、提出问题、贡献代码,形成了浓厚的社区协作氛围。其内置的排行榜(Leaderboards)和趋势发现功能,也帮助开发者及时了解最新的热门模型和技术动态。
从“发现”到“部署”的全链路支持:除了模型托管,Hugging Face还提供了Spaces(用于构建和分享模型应用Demo)、Inference Endpoints(用于将模型部署为生产级API)等一系列工具,覆盖了从模型发现、实验到最终部署的全生命周期。
对于全球开发者而言,Hugging Face就像一个巨大的“数字圆桌会议”,来自世界各地的研究者和工程师在这里分享他们的最新成果,共同推动着AI技术的前沿。然而,对于中国大陆的开发者来说,由于网络访问限制,直接从Hugging Face下载动辄数十GB的模型常常会遇到速度缓慢甚至连接失败的问题,这在一定程度上影响了使用体验。
3.2 ModelScope(魔搭社区):立足中国、服务本土的“模型即服务”平台
正是在这样的背景下,由阿里巴巴达摩院联合中国计算机学会于2022年推出的ModelScope(魔搭社区),应运而生并迅速崛起。它精准地切入了中国开发者的痛点,并以“模型即服务”(Model as a Service, MaaS)的创新理念,构建了一个深度整合、体验流畅的本土化AI生态。
ModelScope的核心优势在于其“更懂中国开发者”:
高速、稳定的本土化网络:ModelScope在中国大陆部署了高速的CDN网络,开发者可以享受到稳定、快速的模型下载体验。对于Qwen、GLM、DeepSeek等托管在ModelScope上的国产模型,下载速度远超直接访问Hugging Face。这一点对于需要频繁下载和实验大模型的开发者来说,是至关重要的体验提升。
深度整合的“模型即服务”体验:ModelScope并非简单地将模型文件放在服务器上,而是将模型与阿里云的算力资源、AI平台(PAI)深度整合。开发者在ModelScope上不仅可以下载模型,还可以直接在平台上进行在线推理、使用免费的GPU资源进行微调、一键将模型部署为API服务。这种从模型到服务(MaaS)的闭环体验,极大地简化了AI应用的开发流程。
丰富的中文与国产模型生态:作为本土平台,ModelScope天然地汇聚了最全面、最及时的国产AI模型和中文多模态数据集。从通义千问全系列,到智谱GLM、零一万物Yi、DeepSeek等,所有主流国产模型都在ModelScope上有官方支持。这使其成为开发中文AI应用的首选平台。
活跃的本土开发者社区:围绕ModelScope,一个充满活力的中文AI开发者社区正在形成。平台通过举办开发者大会(DevCon)、线上挑战赛、线下“搭友之夜”等活动,积极地连接和赋能开发者。其清晰的中文文档、活跃的官方技术支持和丰富的入门教程,也极大地降低了初学者的学习曲线。
2025年,ModelScope还推出了国际站,开始将其成功的本土化经验推向全球,与Hugging Face在更广阔的舞台上展开竞合。

3.3 开发者如何选择?
对于2025年的开发者而言,Hugging Face和ModelScope并非“二选一”的对立关系,而是一个可以优势互补的工具组合:
当你的目标是追踪全球技术前沿、进行学术研究、或者寻找一些小众、新颖的开源模型时,Hugging Face是你不可或缺的“情报中心”和“资源宝库”。
当你需要在国内市场进行商业化AI应用开发,特别是围绕国产大模型进行微调和部署时,ModelScope提供的一站式、本土化服务将是你的“效率加速器”。
一个典型的开发流程可能是:在Hugging Face上追踪到最新的模型和技术趋势,然后在ModelScope上寻找其镜像或官方支持的版本,利用其高速网络下载模型,并使用其集成的工具链进行快速的微调和部署。
结论:拥抱开源,站在巨人的肩膀上
本文描绘了2025年波澜壮阔的开源大模型生态。我们看到了以Llama、Qwen、GLM、DeepSeek为代表的顶级模型如何在激烈的竞争中不断推高AI技术的天花板。我们解读了日益完善的评测体系如何像“灯塔”一样,为模型的进化和开发者的选择指引方向。我们也分析了Hugging Face和ModelScope两大平台如何作为“军火库”和“集市”,为整个生态的繁荣提供了核心的基础设施。
对于开发者而言,这个时代是前所未有的慷慨。开源生态意味着,你不再需要耗费巨资和数年的时间从零开始构建一个强大的AI模型。你可以直接站在Meta、阿里巴巴、Google这些科技巨头的肩膀上,利用他们已经训练好的、耗资数亿美元的顶级模型作为起点,然后用你自己的数据和创意,去解决你所在领域的具体问题。
开源不仅仅是免费的代码,它更是一种开放、协作、共享的创新范式。它加速了知识的传播,降低了创新的门槛,并最终将创造智能未来的权力,交到了每一位开发者的手中。对于算泥社区的开发者们来说,深刻理解并积极拥抱这个充满活力的开源世界,将是开启AI创新之旅、实现技术与商业价值的必由之路。
本白皮书共计分为“前言、全球AI大模型发展现状与趋势、AI大模型开发核心技术栈、算力基础设施与国产替代、主流开源大模型生态、AI应用开发与落地实践、开发者社区与生态建设、结论”八大部分内容。上述文章为「主流开源大模型生态」的部分内容摘选。
完整版白皮书,请扫描下方二维码下载。

END
1450

被折叠的 条评论
为什么被折叠?



