
大模型从零开始
文章平均质量分 96
大模型从零开始学习,内容包括大模型基础知识、模型架构、参数、数据清洗、分词、预训练、微调与对齐、解码与部署、模型评测、Prompt、RAG、Agent等等
木亦汐丫
这个作者很懒,什么都没留下…
展开
-
大模型从零开始——大型语言模型简史
「语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。原创 2025-03-04 17:23:24 · 660 阅读 · 0 评论 -
大模型从零开始——Transformer代码解读
Transformer代码解读 - 来自哈佛大学NLP实验室关于Transformer的一篇开源博客The Annotated Transformer。由编码器和解码器组成,每个编码器层由两个子层连接结构组成:第一个子层包括一个多头自注意力层;第二个子层包括一个逐位前馈全连接层;每两个子层的前后都采用了残差连接,然后进行层归一化;每个解码器层由三个子层连接结构组成,第一个子层连接结构包括一个掩码多头自注意力子层,第二个子层连接结构包括一个多头注意力子层,第三个子层连接结构包括一个逐位前馈全连接子层。原创 2025-02-18 14:03:24 · 1255 阅读 · 0 评论 -
大模型从零开始——提示工程 Prompt
Prompt 的四个基本元素——任务说明、上下文、问题和输出格式,对于大语言模型生成的效果具有显著影响。这些元素的精心设计和组合构成了 Prompt 工程的核心。在此基础上,Prompt 工程包括多种技巧和技术,如上下文学习(In-Context Learning)和思维链(Chain of Thought)等。这些技巧和技术的结合使用,可以显著提升 Prompt 的质量,进而有效地引导模型生成更符合特定任务需求的输出。原创 2025-01-22 16:14:10 · 1312 阅读 · 0 评论 -
大模型从零开始——高效训练技术与Megatron-Deepspeed框架预训练GPT-2模型
随着模型参数规模与数据规模的不断扩展,如何在有限的计算资源下高效地训练模型已经成为制约大语言模型研发的关键技术挑战。其中,主要面临着两个技术问题:一是如何提高训练效率;二是如何将庞大的模型有效地加载到不同的处理器中。本文我们将介绍几种常见的高效训练技术,包括 3D 并行训练、激活重计算和混合精度训练。原创 2025-01-02 16:05:10 · 1193 阅读 · 0 评论 -
大模型从零开始——预训练之分词 Tokenization
词元化(Tokenization)是数据预处理中的一个关键步骤,旨在将原始文本分割成模型可识别和建模的词元序列,作为大语言模型的输入数据。传统自然语言处理研究主要使用基于词汇的分词方法(Word-based Tokenizer),一些语言模型开始采用字符作为最小单位来分词(Character-而基于 Transformer 的语言模型则广泛采用子词分词器(Subword-based Tokenizer)包括BPE 分词、WordPiece 分词和 Unigram 分词。原创 2024-12-31 18:03:10 · 1622 阅读 · 0 评论 -
大模型从零开始——模型参数量计算
本篇我们将介绍如何计算基于Transformer架构的大语言模型的参数数量。由于当前主流的大模型普遍采用因果解码器(CausalDecoder)架构,因此下面以LLaMA2模型为范例,深入剖析其参数数量计算方式。对于其他模型,其参数量计算算法可参照此方法计算。原创 2024-12-31 16:45:42 · 2703 阅读 · 0 评论