一文看遍AI行业大模型

前言

通用大模型技术快速发展,但很多传统行业推进得并不快。对企业而言,大模型应用需要综合考虑专业性、数据安全、持续迭代和综合成本等多种因素。针对这些现实情况,腾讯集团提出重点发展行业大模型的理念。本文基于一线大量实践反馈,做出系统归纳总结,呈现行业大模型发展真实情况,厘清关键争议和困惑问题。真正解决用户需求、距离场景和数据更近的企业,将拥有大模型的未来。

行业大模型弥合技术与需求差距

1. 大模型引发智能革命

2022年11月30日,一款名为大语言模型(LLM,Large Language Model)的应用发布后,用户数量迅速增加,成为历史上增长最快的应用。ChatGPT的火爆标志着人工智能(AI,Artificial Intelligence)大模型时代的开启,也预示着AI迈向通用人工智能(AGI, Artificial General Intelligence)新阶段的到来。当前业界对大模型尚未形成统一的定义,狭义上通常指大语言模型,基于Transformer技术框架;广义上则包括了语言、声音、图像、视频等多模态大模型,涵盖了稳定扩散模型(Stable Diffusion)等技术框架。

在大模型诞生之前,人工智能主要依赖针对特定任务和场景设计的专用算法模型,只能执行在训练数据范围内的单一任务。大模型的重大突破在于展现了类人的通用智能“涌现”能力,能够学习多个领域的知识并处理各种任务,因此也被称为通用大模型。大模型具备多种显著特点。

首先,参数规模巨大。大模型的参数规模远超传统深度学习模型,体现了规模定律(Scaling Law)的特征,即模型性能与规模、数据集大小和计算量之间呈现幂律关系,随着这三者的指数增加,模型性能显著提升。简单来说,就是规模越大,效果越好。传统模型的参数量通常在数万到数亿之间,而大模型的参数量至少在亿级,甚至已经达到过万亿级。

其次,泛化能力强。大模型能够有效处理多种未见过的数据或新任务。基于注意力机制,通过在大规模、多样化的无标注数据集上进行预训练,大模型能够学习并掌握丰富的通用知识和方法,从而在各种场景和任务中应用。大模型在新任务上表现优异,即使仅需少量特定任务的数据样本。

最后,支持多模态。大模型可以高效处理多种模态数据。传统深度学习模型大多只能处理单一数据类型(如文本、语音或图像),而大模型通过扩展编/解码器、交叉注意力、迁移学习等方式,实现跨模态数据的关联理解、检索和生成。多模态大模型(LMMs,Large Multimodal Models)提供了更加全面的认知能力和丰富的交互体验,拓宽了AI处理复杂任务的应用范围,是业界探索通用人工智能的重要路径之一。

2. 行业大模型是AI+落地最后一公里

规模定律推动了通用大模型性能的不断提升,但同时也引发了“不可能三角”问题:专业性、泛化性和经济性三者难以兼顾。

首先,专业性是指大模型在处理特定领域问题时的准确性和效率。要提高专业性,需要使用特定领域的数据进行训练,这可能导致模型过拟合,从而降低泛化能力。此外,收集和训练更多数据会增加成本,降低经济性。

其次,泛化性是指大模型处理未见过的新样本的能力。提高泛化性需要多样化的大规模训练数据和更多的模型参数,这会增加训练和使用成本,降低经济性,同时可能影响模型在特定领域的专业能力。

最后,经济性是指大模型训练和应用的成本效益。要提高经济性,需要减少计算资源和成本以满足性能要求,但这通常需要使用更小的模型或更少的参数,这又会降低模型的性能表现。

通用大模型旨在发展通识能力,主要关注泛化性,因此在专业性和经济性方面难以完全满足具体行业的需求,可能出现“幻觉”和高成本等问题。

在行业机构中应用大模型时,还有两个关键因素需要考虑:竞争和安全。数据转化为竞争力是核心驱动力。为了提升竞争力,机构会寻找性能最佳的模型,并利用行业专业数据或私有数据对模型进行定制和优化。目前,市场上的顶级通用大模型如GPT-4等多为闭源,通过网页、APP或API服务大众用户和开发者,定制调整的空间有限。保障安全可控是基本要求。大模型不仅涉及机构私有数据的使用,还与业务流程结合,这使得在使用大模型时必须重视安全性和可控性。通用大模型通常基于公有云提供服务,这会引起机构对私有数据和敏感数据安全的担忧。

由于通用大模型与行业/机构具体需求之间存在差距,行业大模型应运而生,凭借其优势(见图1),有效支持各行各业加速落地大模型应用,弥合差距。

1. **高性价比:**行业大模型在较小参数量的基础上,通过相对低成本的再训练或精调,能够取得不错的性能表现。目前,参数量在十亿到百亿之间的行业大模型是主流选择,相较于参数量动辄千亿级的通用大模型,能显著降低开发成本。

  1. **专业定制:**行业大模型可以基于开源模型进行开发,能够根据需求对模型结构和参数进行调整,以更好地适应个性化应用需求。通过模型即服务(MaaS,Model as a Service,见图2)方式,机构可以从平台提供的多种模型中快速选择适合的产品,包括厂商开发的行业大模型初始版本。

3.安全可控:行业大模型可采用私有化部署方式,使机构能更放心地利用私有数据提升应用效果,减少数据安全疑虑。

3. 行业大模型长在通用大模型上

行业大模型是相对于通用大模型提出的概念。通用大模型主要着重于发展广泛的知识和能力,而行业大模型则侧重于专业领域的知识和技能。从实际应用来看,行业大模型不仅指专为某一行业开发的模型,还包括基于通用大模型进行调整和优化的行业应用。因此,广义的行业大模型可以理解为:利用大模型技术,针对特定数据和任务进行训练或优化,从而形成具备专业知识和能力的大模型及其应用。此外,国际上常用垂直模型(Vertical Model)或垂直人工智能(Vertical AI)来描述这种概念,在国内则有垂类模型、领域模型、专属模型等称呼。

行业大模型通常是在通用大模型的基础上构建的。通用大模型具备广泛的知识和强大的泛化能力,不仅能够为行业大模型提供丰富的知识基础和良好的交互体验,还能显著减少从头训练模型所需的海量数据和计算资源,大大提高行业大模型的开发效率和效果。通过提示工程、检索增强生成、精调、继续预训练或后训练等方法,模型可以更好地处理特定数据或任务,形成行业大模型版本(模型结构变化)或具备行业大模型的功能(模型结构不变)。目前市场上的许多行业大模型,如金融、法律、教育、传媒、文旅等,都是基于Llama、SD、GLM、Baichuan等国内外主流开源大模型进行构建的(如图3所示)。

行业大模型的核心在于提供解决方案,通常需要针对特定的数据和任务进行定制化开发或调整。这类模型主要服务于B端客户,每个客户都有独特的业务、数据和流程,因此需要用大模型解决的具体问题也存在个性化需求。由此可见,厂商提供的行业大模型不仅是产品和工具,更需要提供定制化的服务与支持,甚至需要客户共同参与开发。可以这样理解,行业大模型中的产品通常像是“毛坯房”,客户需要根据自身的需求进行“装修”才能满足其使用要求。

大模型行业应用进展与评估

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值