原文地址:大模型技术栈
- 第一部分:算法与原理
- 第一章 概览与前置任务
- tokenizer训练
- tokenizer原理与算法:BPE,ByteBPE,wordpiece,unilm,sentence-piece
- tokenizer训练:sentence-piece
- position encoding方案
- Alibi
- RoPE
- 注意力机制与transformer架构
- 典型的自注意力机制
- 其他注意力机制
- Mamba,H3,Hyena,RetNet,RWKV,Linear attention,Sparse attention
- 典型的transformer架构
- decoder-only
- encoder-only
- encoder-decoder
- tokenizer训练
- 第二章 训练
- 预训练
- lm训练配置
- 正则化方法
- 激活函数
- 优化器
- lm训练配置
- SFT训练
- 强化学习
- Police-Based
- Value-Based
- Actor-Critic
- RLHF训练
- 其他指令对齐训练
- 分布式并行训练技术
- 模型并行
- tensor parellelism
- 序列并行
- pipeline parellelism
- GPipe,1F1B,interleaved 1F1B
- 数据并行
- DP,DDP,FSDP,ZeRO
- 模型并行
- MoE
- 预训练
- 第一章 概览与前置任务

本文详细总结了大模型的技术栈,涵盖了从算法与原理(如tokenizer训练、注意力机制、transformer架构)、训练方法(预训练、RLHF训练、分布式并行训练)、推理优化(包括剪枝、量化、显存优化)到应用实践(RAG、文本检索、Agent框架)等多个方面。同时,讨论了训练框架(如deepspeed、megatron-lm)和推理服务(如FastChat、LMDeploy),以及开源模型和相关工具,为深入理解和应用大模型提供了全面的指南。
最低0.47元/天 解锁文章
1380

被折叠的 条评论
为什么被折叠?



