周红伟老师
课程背景
本课程首先讲述了有关Transformer和大语言模型(LLM)的关键前置知识, 包括注意力机制、多头注意力、编码器-解码器结构等Transformer原理, 以及LLM的文本生成和LLM微调技术原理。
在此基础上, 重点介绍了ChatGLM4模型的进化历程、技术原理和代码实现。其中涉及RMSNorm归一化、SwiGLU激活函数、RoPE位置编码、GQA注意力和KVCache等关键技术。通过代码解析, 深入剖析了ChatGLM4的架构设计和代码实现。
在实践部分, 课程还介绍了如何在阿里云使用Ollama和vLLM部署ChatGLM4模型, 以及使用llama_factory工具进行基于LoRA和QLoRA的ChatGLM4 8B大模型微调。项目实战环节则提供了从准备数据集到训练、推理、评估的全流程指导, 聚焦中文增强和医疗问答两大应用方向。
这是一门内容全面、理论实践并重的大模型课程。不仅系统讲解了LLM和ChatGLM4的技术原理, 还通过代码解析和实战项目深度剖析了相关技术在工程落地中的关键环节, 有助于学员全面掌握大模型相关知识和动手实战能力。
培训对象
希望学习ChatGLM4大模型原理、代码和部署、微调、评估的学员