2025年,大模型赛道进入“千模大战”下半场:一边是OpenAI、Google、Anthropic等明星公司疯狂卷参数、卷性能;另一边却是居高不下的训练与推理成本、开源社区的免费冲击,以及B端客户“只试用、不买单”的普遍观望。外界普遍疑惑——当API价格一降再降,LLM厂商到底靠什么赚钱?
答案藏在一条“明线”与三条“暗线”里。
明线:把模型当“水电”卖,规模越大越便宜
- API按量计费:把Token变成现金流
这是所有厂商最先跑通的商业模式。
- OpenAI o3最新报价:输入2美元/百万token,输出8美元/百万token,比2024年降价80%。
- 国内DeepSeek-V3同尺寸做到0.4元/百万token,低于市场均价70%。
逻辑很简单:模型即水电,先低价并网,再靠规模收电费。
但“水电”毛利极薄。据第三方测算,在H100上跑开源Llama-3.3-70B,每1000次推理成本约0.013美元,而公开API报价0.02美元,毛利率仅35%左右,再扣掉运维、带宽、人力,基本无利可图。
- 订阅制:把“免费玩家”变“月度付费”
当C端流量见顶,20美元/月的ChatGPT Plus、Claude Pro成为现金“压舱石”。
- 2025年ChatGPT贡献OpenAI 75%收入,约27亿美元。
- 行业Freemium转化率3%–5%,ChatGPT以4亿月活计算,付费池还有2亿人可挖。
订阅的好处是现金流稳定、可预测;弊端是只能覆盖轻量级用户,一旦企业深度调用,token费用立刻爆表,订阅价无法覆盖。
暗线之一:把“卖模型”变成“卖算力”
当Token本身不赚钱,GPU时间就成了真正的商品。
- OpenAI、Anthropic背后站着微软Azure、AWS,云厂商用模型拉客户,再用算力锁客户。
- Google更直接:Gemini API必须走自家GCP,模型调用只是入口,GPU实例、TPU Pod、BigQuery才是利润中心。
- 国内字节跳动“豆包”大模型在火山引擎上只收0.0008元/千token,但背后把客户导入GPU云,一张A100按小时租最低8元,毛利率50%以上。
结论:模型可以亏,只要能把算力打包卖出去,云厂商就能赚回超额利润。
暗线之二:把“卖能力”变成“卖解决方案”
B端客户要的不是“模型”,而是“结果”。
- 埃森哲、德勤们把GPT/Claude封装成“智能知识库”“合规写作助手”,一个项目报价300–500万美元,其中软件License不到20%,剩下都是咨询、实施、运维。
- Palantir模式更极端:Forward Deployment Engineer驻场,按“人头+平台”双计费,ARR(经常性收入)毛利率高达70%。
结论:当大模型变成高端咨询的“锤子”,厂商就能摆脱Token价格战,按人力+交付价值收费。
暗线之三:把“卖全套”变成“卖奢侈品”
顶级模型正在复制爱马仕的“稀缺性溢价”。
- OpenAI、Anthropic对高净值客户开放“私有模型+专属集群”,签最低消费协议(Minimum-Use Contract),单年合同1000万美元起步。
- 部分金融、政府客户愿为“不会被复制、不会泄露数据”的旗舰模型支付5–10倍溢价,形成“VIP黑卡”式收入池。
结论:把最强模型做成“身份符号”,既能锁定收入,又能防止技术被蒸馏,一石二鸟。
未来终局:一场“四维盈利”的持久战
- 规模维:继续卷低价,用API/订阅吸流量,保市占率。
- 算力维:绑定云厂商,靠GPU/TPU实例、高性能网络、存储赚钱。
- 服务维:做深行业,靠咨询、定制、运维吃高毛利。
- 稀缺维:封顶级模型为“奢侈品”,用准入壁垒换溢价。
短期看,“模型亏损、算力盈利”是常态;长期看,谁能同时跑通四条线,谁就能在1.5万亿美元的生成式AI市场里切到最大一块蛋糕。
一句话总结
LLM厂商的终点不是“卖模型”,而是把模型变成通往算力、咨询与奢侈级服务的“流量入口”——现在亏掉的钱,只是为将来收更高的“税”铺路。

被折叠的 条评论
为什么被折叠?



