大语言模型在翻译、知识问答、写作、摘要、搜索、代码开发等场景得到了广泛的应用,一些策略是将大语言模型集成到公司的现有产品,比如微软的Office接入ChatGPT。
当前大语言模型盈利情况堪忧,今年 5 月有媒体曝出因去年开发出 ChatGPT,OpenAI 亏损 5.4 亿美元,微软在 GitHub Copilot拥有 150 万用户的基础上,每月仍倒贴每位用户 20 美元。
前面博客主要内容围绕着优秀的基座模型、模型量化以及fine-tune等技术,其核心思想是降低中小公司的技术门槛和使用成本。
本质上,大语言模型是利用现有资源, 快速地将数据转化为企业生产力,数据是是第一出发点,如何提炼和使用公司数据,是应用和商业化不得不考虑的点。
基座模型训练成本
训练一个基座模型的成本最包括计算资源、数据、研发人员,总的来说从数据采集清洗,到模型开发训练、模型管理,再到云端及离线推理服务管理等AI开发过程的全生命周期都涉及相关费用,此外还有法务、安全等
OpenAI的ChatGPT模型使用了微软算力平台,微软的基础算力平台使用了数以千计的英伟达GPU,使用基于英伟达量子 InfiniBand 通信网络连接在一起,用于高性能计算,据彭博社报道,微软在该ChatGPT项目上已经花费了数亿美元。
国盛证券曾经估算,GPT-3训练一次的成本约为140