有需要学习了解大模型的可以关住工Zzz号:大模型星球 。回复暗号:282 还可以领娶大模型一系列学习籽料。
大模型发展
历程自2006年Geoffrey Hinton提出通过逐层无监督预训练解决深层网络训练难题以来,深度学习在多个领域取得突破,经历了从标注数据监督学习到预训练模型,再到大模型的转变。2022年底,OpenAI发布的ChatGPT引发了广泛关注,展现了大模型在多场景、多用途、跨学科任务处理的能力。大模型被认为是未来人工智能领域的关键基础设施。
语言大模型作为此次热潮的引领者,通过大规模预训练学习大量语言知识与世界知识,具备面向多任务的通用求解能力。其发展经历了统计语言模型、神经语言模型、预训练语言模型到语言大模型(探索阶段)的四个阶段。
统计语言模型基于马尔可夫假设,但受到数据稀疏问题影响;
神经语言模型通过神经网络建模语义共现关系,能够捕获复杂语义依赖;
预训练语言模型采用“预训练+微调”范式,通过自监督学习适配下游任务;
大模型则基于扩展定律,随着模型参数和预训练数据规模的增加,模型能力与任务效果不断改善,还展示出了一些小规模模型所不具备的“涌现能力”。
#大模型应用
大模型时代正逐步到来,以ChatGPT为代表的大模型技术将在经济、法律、社会等领域发挥重要作用。OpenAI研发了GPT-1(1.1亿参数)、GPT-2(15亿参数)和GPT-3(1750亿参数)等不同规模的语言模型,谷歌则推出了5400亿参数的PaLM模型。当模型参数规模达到千亿量级,语言大模型展现出多方面