
百模大战愈演愈烈,但很多从业者对大模型的疑问却越来越多。
在基础大模型领域,腾讯、阿里、百度等多个互联网巨头涌入,且阿里、百度、科大讯飞等大厂在最近一个月相继发布了最新版本的大模型产品,技术能力也有了较大提升;创业公司在迭代新版本的同时,还在“疯狂”融资,智谱AI于近日宣布今年已累计获得25亿元融资,成立近半年的百川智能已获3.5亿美元融资,这些创业公司的投资方中,也不乏腾讯、阿里、美团等互联网巨头。
中国真的需要这么多基础大模型吗?各家基础大模型公司都在疯狂“卷”技术参数,但市场到底需要什么样的大模型?在热闹且混乱的战局下,这些问题被越来越多的人提出来。
回答这个问题,得先搞清楚基础大模型在中国市场如何赚钱。虽然绝大部分人对大模型的感知是聊天机器人,也有不少用户在搜索信息、整理文档时开始使用这些产品,但相关企业难以从这些C端产品中赚到钱,甚至用户规模越大企业亏损越多。当下,基础大模型商业化最务实的方向还是在B端,服务于零售、金融、制造等领域企业降本提效,才能获得稳定的商业收益。
企业对基础大模型的需求无非3种:直接调取大模型API,获取相关大模型能力;基于大模型,贴合实际业务进行二次开发;基于大模型开发AI应用。这些需求考验基础大模型平台的技术能力,更考验其企业服务能力。
从服务能力上看,大模型初创公司和互联网巨头公司都要从零起步,没有人拥有先天优势。能更快洞察到客户需求,并提供稳定靠谱服务的平台才能脱颖而出。
大模型不是“吹”出来的
以ChatGPT走红为分界点,国内大模型的发展经历了冰火两重天。
在ChatGPT走红之前,国内只有少量的公司在从事基础大模型研发工作,因为大模型的技术以及服务能力还未被市场广泛接受,这些公司主要专注于技术研发和服务能力积累上。当ChatGPT走红之后,大量投资者和从业者涌入,大模型成了新风口。
市场火爆就容易催生投机者,他们不是深入钻研技术,而是讲故事、炒作概念,不管技术和服务能力如何,先把故事讲得天花乱坠,并以此获得资本市场和客户的认可。一位大模型从业者层打趣地对虎嗅表示,国内很多大模型公司都称自己和GPT-4的差距只有几个月,这是因为他们都在已经开源GPT-2基础之上做了一些训练就出来讲故事。
实际上,大模型的技术能力的进化并不是随便训练几个月就能实现的,因为这是一个复杂的系统,规模大非常重要,规模不达到一定程度无法产生更智能的进化。而提升大模型的训练规模,需要花费大量时间反复调试。调试过大模型训练参数的技术人员都理解这种困难:没有人告诉你应该怎么做,只能自己摸索,这个过程中会出现各种各样意想不到的状况,都需要花时间解决。
在国内,真正在技术能力上有底气的基础大模型,都是在ChatGPT走红之前就开始训练了,那时候大模型还没有被大家熟知,很多人看不懂也不看好大模型,而坚持投入大模型的公司都对新技术非常笃定。
比如,智源研究院在2020年发起首个超大规模预训练模型研究项目“悟道”,其2.0版本一度成为全球最大的万亿级模型。今年升级之后,“悟道” 涵盖语言、视觉、多模态等基础大模型,并已进入全面开源的阶段。
智谱AI同样在2020年就研发起了GLM预训练架构,还训练出了一个百亿规模参数的模型GLM-10B。10月27日,智谱AI发布了自研第三代对话大模型 ChatGLM3,其性能、推理能力、上下文容量等都相较于上一代有较大提升。与 ChatGLM2相比,ChatGLM3在44个中英文公开数据集测试中,均排在国内同尺寸模型首位。其中,MMLU提升36%、CEval提升33%、GSM8K提升179% 、BBH提升126%。
另外,在功能上,智谱AI 发布的多个国产自研大模型(ChatGLM、CodeGeeX、WebGLM、CogVLM等) 也是目前国内对标 OpenAI 系列大模型最完善的,且在生成式AI助手“智谱清言“上都是适用的。

这些最早一批做大模型的公司和炒概念、追风口的公司有本质区别。在大模型技术还没有爆火、市场还没有那么卷的时候,他们就投身其中,是因为把基础大模型技术价值和生意逻辑都想明白了。这种差别在大模型走红之后也非常明显,很多公司为了流量和话题度去涉足C端产品,而像智谱AI等最早一批涉足大模型的公司更聚焦在企业服务领域,所有的研发能力和服务能力也都围绕这个思路去布局,踏踏实实做积累,朝着为客户创造价值的方向去发展。
大模型的复杂性决定了技术和服务能力上积累时间更长的企业具备更强的优势。当市场上越来越多人意识到大模型大模型的复杂性,以及大模型进化所需要的时间,那些靠讲故事炒概念的大模型公司,生存空间将会越来越小,而认真积累技术和服务能力的公司才能经受住第一波竞争的考验。
没有繁荣生态的大模型,没有未来
在大模型商业化的过程中,谁能在具备社会刚需的应用场景落地,谁就能最先形成自我造血的良性循环。
通用大模型具有更广泛的的应用范围,但在解决垂直领域特定问题时并不够专业。垂直大模型解特定领域问题的能力更强,但服务范围非常受限,这导致很多垂直大模型很难实现成本和商业收益的平衡,发展空间有限。
大模型应用的最终落点是要为生活和生产所用,能解决工作、生活中的实际问题,提升工作效率和生产力。综合目前通用大模型和垂直大模型的优劣势,当下大模型商业化过程中一个更为合适的思路是,通用大模型作为基座,把技术和服务能力开源给零售、金融、制造等领域,通用大模型和相关领域企业一起合作,共建应用场景。
受制于数据、算力、场景等限制,真正能跑通开源的大模型并不会太多。同时,作为基础技术底座,大模型的角色和PC、手机操作系统非常相似,将呈现“大树底下,寸草不生”的竞争格局,即一两个技术底座占据行业统治地位,所有的应用开发者都要基于这一两个技术底座开发。如果基座大模型不能形成繁荣的生态,就没有可持续发展的能力。
从PC、手机操作系统的发展历史来看,先发优势非常重要。当Windows统治PC市场,iOS和Android在手机领域二分天下之后,其他操作系统很难再有翻盘的空间。
大模型领域同样呈现一样的趋势。大模型将开启一个繁荣的AI应用生态,个人及企业的数据、能力或应用,都能快速变成AI插件,增强大模型的能力,也将让大模型更实用易用。
目前,百度、科大讯飞等巨头公司已经致力于生态建设,百度智能云千帆大模型平台2.0月活企业数近万家,覆盖了金融、教育、制造、能源、政务、交通等多个行业的400多个场景,科大讯飞的星火大模型平台开发者规模已超70万个。
一些在大模型领域积累较长时间的创业公司,也最早吃到了螃蟹。智谱AI目前客户数量超过1000家,共建生态的合作伙伴超100家,覆盖传媒、SaaS、教育、办公等多个场景。比如,WPS智能文档生成演示文稿内容、撰写新闻稿等能力背后,就有智谱AI的技术能力作为支撑。

在各个大模型平台的生态竞争中,最考验平台的就是其带给合作伙伴的价值以及和合作伙伴共同成长的能力。就以办公场景来说,演示文稿内容生成、文章内容撰写、风格改写对大模型平台的精度、推理等能力要求非常高,只有达到一定技术水平的大模型才有能力支撑这些应用,同时大模型平台还需要根据用户在实际应用中的反馈纠错迭代。
**无论是巨头公司还是创业公司,哪怕资金和资源实力再强,都要从零开始一步一个脚印的积累迭代。**所以,大模型平台在构建生态过程中,时间优势显得非常重要。这也是具有先发优势的创业公司和资金资源能力更强的互联网大厂能够旗鼓相当的原因。
百模大战,谁更适合中国市场?
虽然百模大战的战局热闹且混乱,但背后的竞争方向已非常清晰,技术和服务能力以及大模型平台构建生态的能力直接决定竞争的走向。
这些能力的构建需要时间积累,很难一蹴而就,但仅仅有时间的积累也是不够的。先发优势,除了早行动带来的时间差之外,还有精准洞察到市场需求的能力,即沿着一条正确的战略坚定而快速地行动,战略摇摆以及走弯路很容易把早行动积累的时间优势全部损耗掉。
当越来越多大模型平台都把重心转移到生态建设上之后,平台的战略定力和执行力在生态的竞争将变得越来越重要,谁能更高效地完成各个领域和场景从0到1的积累,谁的优势就更加明显。而当少数几家平台完成向超级平台的质变之后,竞争格局也就基本确定下来。
在大而复杂的国内市场,B端服务企业很容易出现战略摇摆以及走弯路的情况。一方面,国内市场企业所处的区域、经营规模不同,对大模型给企业智能化价值的认知有较大差异,愿意投入的资源和付出的成本也各不相同,较难找到一个标准化的解决方案;另一方面,不同领域企业对大模型能力的需求不同,甚至同一领域的不同企业对大模型的需求也不尽相同,在不同需求的撕扯下,大模型公司很容易从基础技术底座变成项目外包公司,而很难成为真正的超级平台。
在这样的环境下,相比于OpenAI的商业化方案,国内大模型平台的商业化落地需要更加注重细节。在一些平台的商业化思路上,我们看到了这样的趋势。
比如,除了常见的开放平台API服务以外,智谱AI除了还提供了云端私有化和本地私有化两种方案。云端私有化可协助企业基于私有数据打造专属大模型,拥有更强的安全性,而本地私有化是中国市场独有的方案,除了提供更加强大的模型,还提供完整的模型矩阵,以满足各种场景和需求。

针对本文生成、智能客服、数据标注等不同的客户需求以及大中小型企业的需求规模,智谱AI都提供了不同的解决方案,客户可根据自己的需求自由组合。这种更细节更灵活的服务模式,也是基于长期对中国市场的精准洞察而来的。
面对外部环境的不确定性,智谱AI还启动了国产芯片适配计划,和国内硬件厂商、芯片厂商合作,面对不同类型的用户不同类型的芯片提供不同等级的认证和测试,让大模型服务更安全可靠。当前,ChatGLM系列已支持10余种国产硬件生态,包括昇腾、神威超算、海光DCU、海飞科、沐曦曦云、算能科技、天数智芯、寒武纪、摩尔线程、百度昆仑芯、灵汐科技、长城超云,同步发布的可手机部署的端测模型ChatGLM3-1.5B和3B支持小米、vivo、三星等多种手机以及车载平台。
在百模大战的战局越是激烈,这些看似不起眼的细节就越重要,因为这些细节决定了外部合作伙伴的认可程度,也关系着大模型在不同场景下的落地速度。单纯发布一个大模型的门槛,没有市场想象那么高,但能够拥有高质量数据场景,才能持续迭代,形成竞争壁垒,而高质量数据场景的关键就在于外部合作伙伴——让更多合作伙伴愿意选择的平台,更容易跑通这个商业循环。
在这场竞争中,很多从业者认为赢家一定是资源和资金能力更强的巨头公司,其实不然。创业公司和巨头公司都需要身体力行,深耕细节,没有任何捷径。至于资金,并不是决定战局的根本,因为有核心竞争力的创业公司也并不会缺钱——即使智谱AI目前已获得大模型创业公司最高额的融资,还有更多新的投资者想入局。
如果换一个角度思考,其实对于谁是更适合中国企业的基座大模型,资本市场已经在用脚投票了。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

807

被折叠的 条评论
为什么被折叠?



