大语言模型task3打卡-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39097911/article/details/146325278

预训练过程

为了预训练大语言模型，需要准备大规模的文本数据，并且进行严格的清洗，去除掉可能包含有毒有害的内容，最后将清洗后的数据进行词元化（Tokenization ）流，并且切分成批次（Batch ），用于大语言模型的预训练.

数据清洗:

词元化:

批次处理:

将词元分成批次是为了方便在训练时提供输入。通常我们会将这些词元转换为 ID 并使用固定的批次大小。

算力评估

目前的开源模型普遍采用 2∼3T 规模的词元进行预训练，这一过程对算力需求量很大,一般来说训练百亿模型至少需要百卡规模算力集群(如A100 80G)联合训练数月时间;而训练千亿模型则需要千卡甚至万卡规模的算力集群.

指令微调对于算力资源的需求相对较小。一般情况下，若干台单机八卡（A100-80G）的服务器就能在一天或数天的时间内完成百亿模型的指令微调，当指令数据规模较大的时候可以进一步增加所需要的算力资源。这个过程还可以进一步加入多轮次的对话数据来增强模型的人机对话能力。

由于强化学习需要维护更多的辅助模型进行训练，通常来说对于资源的消耗会多于指令微调，但是也远小于预训练阶段所需要的算力资源。目前还有很多工作试图通过消除奖励模型的使用，或其他使用 SFT 方式来达到与 RLHF 相似的效果，从而简化模型的对齐过程。

GPT与Deepseek的演变

OpenAI对大语言的研发可分为四个阶段:

一,早期探索阶段

2017年Google推出transformer后OpenAI立即在18年发布GPT-1,模型名称 GPT 是生成式预训练（Generative Pre-Training）的缩写.

GPT-1原理:GPT-1 基于生成式、仅有解码器的 Transformer 架构开发，奠定了 GPT 系列模型的核心架构与基于自然语言文本的预训练方式，即预测下一个词元。

GPT-1缺点:由于当时模型的参数规模还相对较小，模型仍然缺乏通用的任务求解能力，因而采用了无监督预训练和有监督微调相结合的范式.

GPT-2原理:GPT-2 沿用了 GPT-1 的类似架构，将参数规模扩大到 1.5B，并使用大规模网页数据集 WebText 进行预训练。与 GPT-1 不同，GPT-2 旨在探索通过扩大模型参数规模来提升模型性能，并且尝试去除针对特定任务所需要的微调环节。(它试图使用无监督预训练的语言模型来解决各种下游任务，进而不需要使用标注数据进行显式的模型微调。)

GPT-2缺点:模型效果相对有监督微调方法要稍微逊色

二,规模扩展

GPT-3原理:将模型参数扩展到了 175B 的规模。与 GPT-2 相比，GPT-3 直接将参数规模提升了 100 余倍.正式使用上下文学习,大语言模型的训练与利用可以通过语言建模的形式进行统一描述(同年发布拓展法则)

三,能力增强

代码数据训练:根据 OpenAI 所发布的 API 信息所示，GPT-3.5模型是在基于代码训练的 GPT 模型（即 code-davinci-002）基础上开发的，这表明在代码数据上进行训练有助于提高 GPT 模型的综合性能，尤其是代码能力。
人类对齐:2022 年 1 月，OpenAI 正式推出 InstructGPT 这一具有重要影响力的学术工作，旨在改进 GPT-3 模型与人类对齐的能力，正式建立了基于人类反馈的强化学习算法，即 RLHF 算法。