目录
核心摘要
古人有云:日就月将,学有缉熙于光明。人类对人工智能学的潜心钻研终于再度获得重大突破,大模型的涌现能力与AIGC的应用普及为那不一定是AGI但一定更AI的未来提供了确定性的加速度。AI2.0时代的加速到来,不仅是把AI能力融入到现有应用中,更是未来产业范式的再塑造。AI正跳跃式地加速渗透进各行各业,推动一场新的生产力与创造力革命。AI产业链各环节参与者的角色功能、产品服务和应用生态可能将发生变化。
对此,艾瑞发布《AIGC系列报告——中国AIGC产业全景报告》,作为AIGC系列首发,报告将展开对AIGC产业的全景洞察、探究生成式AI技术对数字产业的影响变化、绘制“中国AIGC产业全景图谱”、分析主流参与厂商类型与格局策略、各类型厂商发展路径和能力要求变化等,为市场辨析产业发展价值与空间。
中国AIGC产业之“变”与"新"
报告研究范围-AIGC
AIGC与大模型将引领“AI产业”与“产业AI”发展
AIGC(AI-Generated Content)指利用人工智能技术(生成式AI路径)来生成内容的新型内容生产方式。2022年11月上线的AIGC应用ChatGPT,凭借其在语义理解、文本创作、代码编写、逻辑推理、知识问答等领域的卓越表现,以及自然语言对话的低门槛交互方式,迅速获得大量用户,于23年1月突破1亿月活,打破前消费级应用的增速记录。微软称其在GPT-4(ChatGPT Plus背后运行的大模型)中看到了AGI(通用人工智能)的雏形。大众的生活工作日常出现了Midjourney等新形态的各类AIGC应用,各行业的智能化升级也看到了新的可能性,“AI产业”与“产业AI”的想象空间进一步拓展。AIGC应用创新的技术支撑为“生成对抗网络(GAN)/扩散模型(Diffusion)”与“Transformer预训练大模型”的两类大模型分支。在国外AIGC应用展示出大模型的能量的同时,我国企业也加强了相关产品技术布局,云厂商、AI大厂、创企、各行业公司及技术服务商等产业各领域玩家纷纷发布大模型或基于大模型的应用产品及各类技术服务。相较于一般AI应用,大模型应用的训练及推理需要更强的算力支持。综上,本报告将围绕模型、应用、算力三个角度对AIGC产业的发展进行探讨,试图在讨论开源闭源、垂直通用、知识幻觉等大模型未来发展的各种不确定性的同时,为AIGC应用的迭代升级、产业的智能化应用,提供尽可能多的研究辅助,为那个不一定是AGI但一定更AI的未来提供确定性的加速度。
中国AIGC产业市场规模
市场规模呈指数级增长,突破规模化临界点攫取万亿产业价值
根据第50次《中国互联网络发展状况统计报告》,截至2022年6月,中国互联网普及率已高达74.4%。在网民规模持续提升、网络接入环境日益多元、企业数字化进程不断加速的宏观环境下,AIGC技术作为新型内容生产方式,有望渗透人类生产生活,为千行百业带来颠覆变革,开辟人类生产交互新纪元。艾瑞咨询预测,2023年中国AIGC产业规模约为143亿元,随后进入大模型生态培育期,持续打造与完善底层算力基建、大模型商店平台等新型基础设施,以此孕育成熟技术与产品形态的对外输出。2028年,中国AIGC产业规模预计将达到7202亿元,中国AIGC产业生态日益稳固,完成重点领域、关键场景的技术价值兑现,逐步建立完善模型即服务产业生态,2030年中国AIGC产业规模有望突破万亿元,达到11441亿元。
中国AIGC产业投融资情况
模型创业初抬头,多模态、跨模态备受青睐,资本扎堆优质项目
2021年至2023年7月期间AIGC赛道共发生280笔投融资,展现了其高热度与高成长性。从产业细分维度,应用层创业机会最多,模型层创业受到ChatGPT影响,在2023年集中涌现;在获投的应用与模型层创业项目中,文本、影像、语音平分秋色,但相比单一模态,多模态和跨模态的应用前景更加为资本所看好。从投融资轮次维度,70%左右的项目仍处于A轮及以前阶段,同时有高达14.6%的比例属于股权、战略融资,说明赛道虽然处于起步期,但其战略价值已被公认。在全部获投的170家公司中,获投3次及以上公司约占17%。同一标的的高频融资,从企业需求侧反映AIGC前期创业所需大量资金支持,从资方供给侧表明优质创业项目仍非常稀缺。
中国AIGC产业图谱全景图
技术变革的原始驱力:大模型层
预训练大模型分类与介绍
基于两大类基础架构衍生出各类大模型;多模态已成趋势
预训练大模型按照模态可以分为文本、图像、视频、代码、音乐生成等多种,但从底层架构上都分属两类。Transformer是一种编解码模型框架,适用于处理文本、代码这类强连续性生成任务;Diffusion、GAN、NeRF等框架善于处理图像生成类任务。叠加文-图转换技术可以形成文生图模型。由单模态模型在实际训练时融合其他模态技术,可形成多模态、跨模态大模型,如GPT-4、文心一言、 Mid journey等,由于多模态模型可接受文本、图像等不同输入输出形式,对应用场景能够更广泛适配,着力发展多模态模型成为产研两界共同趋势。
预训练大模型的路径探讨
了解人工智能时代的“iOS”与“安卓”,闭源与开源市场将并存互补
在以OpenAI为代表的闭源模型厂商开放对外技术服务后,开源模型厂商也在加紧发力,以Meta的Llama模型为代表陆续开源迭代,意图进一步实现生态层面的跑马圈地,2023年上半年LLM与数据集迎来开源季。大模型的开源可根据开源程度分为“可研究”与“可商用”级别。2023年2月,Meta发布了开源大模型LLM的第一个版本Llama,授予“可研究”用途。2023年7月进一步发布“可商用”的Llama2版本,虽然有日活超过7亿产品需额外申请、不能服务于其他模型调优等的商用限制,但海外很多中小企业已可用Llama2的模型来做私有化部署,基于Llama2开源模型训练出定制化的可控模型。由于Llama2基本不支持中文,对中国的大模型商用生态暂时不会产生实质性变化,中国仍需开发培育适配于中文数据土壤的开源生态。闭源LLM可为B端用户和C端消费者持续提供优质的模型开发及应用服务;开源LLM可从研究角度促进广大开发者和研究者的探索创新,从商用角度加速大模型的商业化进程与落地效果。未来,开源和闭源的LLM会并存和互补,为大模型发展共同创造出多元协作的繁荣生态。
着力打造中国AIGC开源社区生态
轻量级模型陆续开源,助力开源生态建设,千亿级模型暂以闭源路径开展
AIGC开源社区的建设可以吸纳更多的开发者及拥有定义用户的主导权,以AI开源创新平台为杠杆,带动支撑底层AI芯片、智算中心及云服务等基础设施发展。从供给侧逻辑来看,大模型开源早期由高校和机构推动,如清华大学的ChatGLM-6B、复旦大学的MOSS,陆续有头部云厂商加入,如百度的文心系列与阿里的通义系列,共同为中国AIGC开源社区的建设“增砖添瓦”,以阿里云魔塔社区、百度云飞桨社区为代表的开源社区建设成果初现