写在前面
❝我是学习三个月速成的本科生,没有论文,找到了大模型算法岗实习offer,进行了很多次失败的面试,总结了很多经验和教训,对于我来说能找到大模型算法岗实习已经很满意了,写这个贴子是希望能够帮助更多曾经像我一样迷茫的人,祝大家都能够找到心仪满意的offer!
关注公众号:Meteor导航站,一起学习大模型!
❞
大模型学习之路
1. NLP基础知识
「1. 文本处理基础」
-
「Tokenizer分词技术」:掌握常见的分词算法原理(BPE、WordPiece、SentencePiece),学完之后可以对比不同算法的优劣,改进的方法等进行思考。
-
「Embedding技术」:学习相关Embedding模型算法(One-hot、Word2Vec、FastText),增加自己对词嵌入的理解。
「2. 核心架构组件」
-
「注意力机制」:掌握Self-Attention、Mulit-Head Attention、Cross-Attention、Mask-Attention的原理与实现,并能够计算Transformer中注意力计算的复杂度。
-
「位置编码」:掌握各种位置编码的原理如绝对位置编码、可学习的位置编码旋转位置编码ROPE,总结各种位置编码的优劣。ROPE可能要求手写,
-
「归一化技术」:掌握Layer Norm、BatchNorm、RMSNorm的原理与实现。总结对比它们的优劣,以及Pre Norm、Post Norm的差异。
-
「残差连接」:掌握残差连接的数学原理能让网络做的更深原因等。
「3. 基础网络组件」
-
「MLP(多层感知机)」:掌握Transformer中前馈神经网络的结构设计,不同维度投影的作用。
-
「激活函数」:掌握ReLU及其变体GELU的优势、SwiGLU在大模型中的应用、激活函数选择的考虑因素等。
「4. 损失函数」
-
「交叉熵损失」:需要掌握原理与代码实现在大语言模型训练中的应用。
2.预训练技术
「1. 数据处理」
-
「数据获取方法」:掌握公开数据集的使e用、数据质量评估指标、了解常见网络爬虫技术。
-
「数据清洗技术」:熟悉常见的文本去重算法原理、如MinHash,了解常见训练数据配比策略,如代码、数学、通用知识问答等各种占比多少比较合理?
「2. 预训练流程」
-
「训练策略」:这一部分需要了解很多大模型预训练中超参数的设置,以及每个超参数的用途。网上可以直接搜素到,用到了去看一下背后的原理就行。参数的用途。网上可以直接搜素到,用到了去看一下背后的原理就行。
-
「预训练优化」:掌握常见的优化技术,如梯度累积、混合精度训练、模型并行与数据并行、如何保证训练稳定性等,
「3.结果评估」
-
「评估指标」:掌握常见的评测指标,如困惑度(Perplexity)等。了解常见大型评测数据集,如MMLU、IF-EVAL、MATH等。
-
「增量预训练」:了解继续预训练相关技3术、以及如何解决灾难性遗忘等。
3.后训练技术
「1. 监督微调(SFT)」
-
「基础微调技术」:掌握全参数微调原理e了解学习率设置策略,早停策略等。SFT与预训练过程中1oss计算有什么不同?
-
「高效参数微调」:熟悉常见的高效参数微®调算法原理。如LORA、QLORA、Prefix Tuning、P-Tuning、P-TuningV2、Adapter Tuning。以及不同方法的性能对比等。
「2. 人类偏好对齐」
-
「RLHF技术」:了解RLHF数据构建过会程、熟悉奖励模型训练过程、熟练掌握PPO、DPO算法原理,了解更前沿的对齐算法。
4.推理优化
「1. 框架应用」
-
「DeepSpeed」:掌握ZeRO1、ZeRO2、。ZeRO3优化策略。了解offload、infinity策略。
-
「Megatron-LM」:掌握Megatron-LM模型并行策略、如张量并行、流水线并行等。
「2. 性能优化算法」
-
「注意力优化」:掌握常见优化算法的原。理,如FlashAttention、FlashAttentionV2,vLM中pageAttention等
-
「KV Cache技术」:了解什么是KVCache,为什么需要它,以及比较前沿的KV Cache算法。
「3. 模型量化」
-
「量化原理」:掌握模型量化的基本概念了解量化如何通过降低模型参数的精度(如从FP32到INT8)来减少计算量和内存占用,同时尽量保持模型性能的。
-
「量化方法」:学习常见的量化技术,如静4态量化、动态量化、对称量化、非对称量化等,以及量化感知训练、量化感知微调等。
5. 常见大模型架构
「1. 经典架构」
-
「大模型架构」:了解常见的大模型架构如eGPT系列、LLaMA系列、GLM系列、Qwen系列、DeepSeek系列等。对比他们之间的差异,以及每个系列模型演变过程。
「2. 创新架构」
-
「Mixture of Experts」:了解混合专家模型架构,与Dense架构有啥优劣
-
「Mamba、RWKV」:了解Mamba.RWKV等前沿架构,它们的创新之处。与Transformer架构的优劣对比。
6.大模型应用
「1. 检索增强生成(RAG)」
-
「检索技术」:掌握检索算法(如HNSWe等)、向量数据库选择、Embedding模型微调、文档切分算法、文本相似度计算方法、Query理解、意图识别、混合检索等技术。
-
「增强策略」:如何实现多轮问答、了解RAG中的提示词工程、熟悉相关重排算法原理、如何利用专业领域知识针对性微调底座大模型等。
「2. Agent」
-
「框架与工具」:了解ReAct范式,相关工具使用等。