语言大模型综述

Paper:A Survey of Large language Models

目录

Paper:A Survey of Large language Models

综述

概要

LLM关键技术

规模定律(Scaling Laws)

预训练与微调

对齐调优(Alignment Tuning)

外部工具集成

GPT系列模型的技术演进

模型检查点和API

Pre-Training

数据准备和处理

数据准备

数据预处理

数据调度

架构

Emergent Architectures

解码策略

模型训练参数优化

POST-TRAINING OF LLMS

CAPACITY AND EVALUATION 模型能力评估

Basic Ability

综述

        吐槽:

        本文基于文献A Survey of Large language Models总结,文献篇幅过大,很多的段落都有不少内容重复出现,在读的过程中,越读越感觉这是一篇垃圾论文,冗余内容太多,段落内容与对应小标题不符,一大段文字只有最后一句有点用,前面不是废话就是废话,我认为部分内容过于啰嗦并且没有什么意义我就省略了,仅仅总结我认为重要之部分。虽然这个论文我槽点很多但是还是有一丢丢参考价值。

        自从1950年图灵测试被提出以来,人类已经在探索机器掌握语言智能。语言是复杂的、错综的系统。开发能够掌握和理解自然语言的AI就是十分重大的挑战。语言建模已经被广泛的研究于语言理解和语言生成在过去的20年中,而且已经从简单统计语言模型以演变为神经语言模型。近期,预训练模型(LMs)基于Transformer预训练,同时采用更大规模的数据集,展现了处理NLP问题的强大能力。模型规模的提高会导致模型性能的提高,并且LLMs所体现的强大能力在PLMs中是没有体现的,我们称之为涌现能力(Emergent Abilities)。大模型技术的演变随着Chat-GPT的问世进入了快车道。

        语言是人类十分杰出的技能,通过语言建模(LM)是使得机器理解和掌握语言的重要途经。使得机器能够像人类一样理解和掌握使用语言是一个长期的研究挑战。

        一般来说,LM 的目标是对单词序列的生成可能性进行建模,从而预测未来(或缺失)标记的概率。LM的研究进行了四个阶段:Statistical language models (SLM)、Neural language models (NLM)、Pre-trained language models (PLM)、Large language models (LLM)。

概要

        大规模语言模型(LLM)通常指的是基于Transformer架构,并且参数规模在数百亿个以上的语言模型。这些模型通过在大规模的文本数据上进行训练,展示了强大的自然语言理解和生成能力。

        Transformer架构是当前大多数LLM的基础,它使用了自注意力机制,能够有效处理长文本的上下文信息。LLM通常会在数十亿甚至数百亿个参数的基础上进行训练,从而具备更强的语言建模能力。

        模型规模的提升:随着计算能力的提升,LLM的规模不断扩大,数据量也显著增加。例如,GPT-3拥有175B(亿)个参数,PaLM则有540B个参数。研究发现,随着模型和数据规模的增加,LLM的性能呈现出明显的提升。 这种“扩展效应”(Scaling Effect)表明,扩大模型规模、训练数据量和计算资源都会显著提高模型的任务解决能力,尤其是在处理更复杂的任务时。

        涌现能力:涌现能力是指在模型参数达到某一临界点时,模型展现出一些之前未曾出现的、意料之外的能力。

        上下文学习:这种能力使得大规模语言模型能够通过少量的示例和上下文信息,快速适应不同的任务。与传统的微调方法不同,ICL让模型能够在接收到任务指令后,直接在上下文中推断并生成回答,而无需通过额外的参数调整。

        LLM的涌现能力表现在它们能够高效地完成各种复杂任务,如少样本学习、推理、生成式对话等。GPT-3和GPT-4等模型在许多任务上展现出了超乎寻常的能力,尤其是在涉及到推理和复杂文本生成时。

LLM关键技术

规模定律(Scaling Laws)

        模型规模、数据规模与训练计算量:LLM的性能与三个主要因素密切相关:模型规模(N)、数据规模(D)和训练计算量(C)。研究发现,这些因素之间呈现幂律关系,随着其中任意一个因素的增加,模型性能也会显著提升。

        Kaplan Scaling Law:该定律提出了模型规模、数据规模和计算资源之间的关系,指出随着资源的增加,模型性能可以呈现出强烈的正相关性。

        Chinchilla Scaling Law:相较于Kaplan的定律,Chinchilla定律强调了模型规模与数据规模的均衡

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值