一文了解大模型始末

目录

1、通用智能大模型:机器学习是我来时的路

2、大模型分类

3、语言大模型的发展史

4、大模型大在哪?

5、大模型的能力

6、大模型带来的AI新范式

7、大模型的核心架构


1、通用智能大模型:机器学习是我来时的路

        2000年左右,机器学习阶段,以语音为例,为了做语音识别,需要先收集语音的原始信号,通过特征分析,给定机器学习输入和输出,然后机器学习来完成学习输入、输出之间隐含的函数关系的任务。

        然而,人工智能的学习有很多任务,如感知任务、认知任务、转换任务等,这些任务非常具象化,也就是说,目的明确,然后,不断提高这些任务的处理能力。

        以自然语言处理为例,包含十几项到二十几项任务,如情感识别、识别主谓语、识别地名、多个语句的相似性等。

        2017年,Google提出了Transformer模型结构统一了大模型结构, 在谷歌2017年提出Transformer之前,也存在很多网络架构,如循环神经网络(RNN)、卷积神经网络(CNN)等,那时,会先分析数据,例如:语音数据,大家会根据语音数据波形的特点(短时、稳态特性),利用这些特性去做频谱转换,形成特征数据,然后再找到一个可以表达这些数据的网络架构模型,逻辑上是让模型向数据靠近!

        Transformer恰恰相反,不再是模型向数据靠近,而是给了一个模型结构(此结构似乎与任何数据无关),但是,我们又可以将提取的特征数据输入到该模型中。

        随着大模型结构统一,低层计算框架可以共性,如TensorFlow,PyTorch等。

        此外,硬件也在发生变化,以往都是按照摩尔定律迭代CPU,Transformer的并行计算特性适配了GPU。

        2022年11月,ChatGPT横空出世,通用模型时代到来,何为通用模型?即跨模态、跨任务、跨场景,使用统一模型。

        Transformer出来后,模型出来很多个, 通用智能大模型探索过程:

        第一阶段:多任务多场景,比如,面向网络,每个基站有很多预测、决策的任务等,可以一起来做;

        第二阶段:预训练,第一阶段训练完的模型可以作为基础,新的任务或数据在此基础上自适应。

        第三阶段:基础模型,如GPT,所有任务都可以以此为架构,但是,此模型会一本正经地胡说八道,所以需要人类干预反馈强化学习,使其更符合人类的期望。

        第四阶段:通用智能大模型,如ChatGPT。

2、大模型分类

        按照输入数据类型的不同,大致可以分为以下几类:                

        一、语言大模型

        如:ChatGPT、文心一言、通义千问

        拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。

        输入和输出都是人类理解的自然语言

        二、代码大模型

        代码生成的原始目标是:给定人类意图的描述(例如:"写一个快速排序"),系统自动生成可执行程序。

        输入是自然语言,输出是编程语言,因此,对于逻辑理解能力要求更强。

        三、视觉大模型

        视觉大模型是指在计算机视觉领域中广泛应用的、具有千万级别或更多参数的神经网络模型。一般使用CNN(Convolutional Neural Network)或Transformers等结构进行构建。

        视觉大模型可以用于图像分类、目标检测、语义分割等任务,具有很高的准确性和泛化能力。

        四、多模态大模型

        多模态大模型是指能够同时处理多种模态数据(文本、图像和语音等)的深度学习模型。
        多模态大模型同时使用文本、图像和语音等数据进行训练,使得模型能够在任务中融合和利用多模态信息。
        多模态大模型能够实现图像、文本、语音等模态之间的统一表示和相互生成,凭借更接近人类认知世界的方式,可广泛应用于图文匹配与检索、自动字幕生成、视觉问答、多模态对话系统、交互式教育和培训等应用场景。

        按照应用领域的不同,大模型主要可以分为L0、L1、L2三个层级:

        一、通用大模型L0

        是指可以在多个领域和任务上通用的大模型。它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法,在大规模无标注数据上进行训练,以寻找特征并发现规律,进而形成可“举一反三”的强大泛化能力,可在不进行微调或少量微调的情况下完成多场景任务,相当于AI完成了“通识教育”。

        二、行业大模型L1

        是指那些针对特定行业或领域的大模型。它们通常使用行业相关的数据进行预训练或微调,以提高在该领域的性能和准确度,相当于AI成为“行业专家”。

        三、垂直大模型L2

        是指那些针对特定任务或场景的大模型。它们通常使用任务相关的数据进行预训练或微调,以提高在该任务上的性能和效果。

3、语言大模型的发展史

        语言大模型(LLM,Large Language Model)

4、大模型大在哪?

        1、大参数量

        以B(十亿)量级为单位。

        2、大数据量

        以数百B,甚至以T为单位。

        3、大资源量

        以成百上千张A100进行训练起步。

        4、大领域量

        在广泛的领域均表现出色,不局限于某一特定领域。

5、大模型的能力

6、大模型带来的AI新范式

        过去小模型时代,不同任务大炼不同的模型,存在场景碎片化、难以快速泛化、落地成本高、周期长、盈利难的问题。

        新一代通用人工智能正在从“大炼模型”向“炼大模型”演进,但炼大模型的成本极其高昂,成为少数人的游戏。

        预训练基础大模型,通过微调适配多种任务,甚至无需微调,直接通过prompt激发大模型能力,成为新一代技术范式。

7、大模型的核心架构

        详见另一篇文章以ChatGPT为例解析大模型背后的技术

### RAG模型概述 RAG(Retrieval-Augmented Generation)是一种融合了检索增强机制的生成型语言模型,由Facebook AI研究院(FAIR)提出。这种架构通过结合传统的基于检索的方法现代的语言生成技术来提升自然语言处理任务的效果[^3]。 ### 工作原理详解 #### 数据获取阶段 在数据准备过程中,RAG利用外部知识库作为补充资源。当接收到输入查询时,系统首先会在预先构建的知识图谱或其他形式的大规模语料库中执行信息检索操作,找到最有可能帮助完成当前对话或任务的相关片段。 #### 动态上下文集成 不同于静态预训练模式下的纯生成方式,在线检索到的具体实例会被即时融入到解码器端口处,使得每次预测都能依据最新获得的真实世界证据来进行调整优化。这一特性赋予了RAG更强的情境适应能力,尤其是在面对开放领域问答、多轮次交互式聊天等复杂场景下表现尤为突出。 #### 双重评分机制 为了确保最终输出的质量,RAG采用了两步走策略:先是从候选集中挑选出若干高质量的回答选项;再经过一轮精细评估后决定最佳回复方案。具体来说就是分别计算每条建议得分——一方面考量它与原始请求之间的匹配度;另一方面也要顾及内部连贯性逻辑一致性等因素。 ```python def rag_model_inference(query, knowledge_base): retrieved_docs = retrieve_relevant_documents(query, knowledge_base) generated_responses = [] for doc in retrieved_docs: response = generate_response_based_on_document(doc) generated_responses.append(response) best_response = select_best_response(generated_responses) return best_response ``` ### 应用案例分析 实际应用方面,《大模型RAG实战:RAG原理、应用与系统构建》一书中提供了丰富的实践指导技术细节解析,涵盖了从理论基础到工程实现再到部署上线全流程的内容介绍。对于希望深入了解并掌握这项前沿技术的研究人员而言,这本书籍无疑是一个宝贵的学习资料来源[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

网运少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值