
LLM专题
文章平均质量分 96
LLM是近年来最流行的模型之一,在本专栏内专门记录相关内容。
云端FFF
not because they are easy, but because they are hard
展开
-
CleanGPT:清晰简洁的GPT模型训练框架
CleanGPT:一个清晰简洁,具备扩展性和教育性的GPT模型工程模板原创 2025-03-12 09:09:50 · 680 阅读 · 0 评论 -
详解三种常用标准化 Batch Norm & Layer Norm & RMSNorm
详细说明 Batch Norm / Layer Norm / RMSNorm原创 2024-06-24 22:35:17 · 6653 阅读 · 14 评论 -
序列模型(4)—— Scaling Laws
本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws,它可以指导我们如何最大化训练效率,我们还可以借助它通过小规模实验预测大模型的性能表现原创 2024-01-10 04:40:46 · 2232 阅读 · 0 评论 -
序列模型(3)—— LLM的参数量和计算量
本文说明重要结论:设模型参数量为 N,训练数据量(Token)为 D,LLM训练中计算量(FLOPs)C ≈ 6ND原创 2024-01-07 09:47:59 · 6814 阅读 · 1 评论 -
minGPT 代码详解(训练 GPT 模型执行两位数加法)
minGPT 是 GPT 模型的一个开源实现,因简洁干净解释性强而颇具教育意义。本文对该开源库实现的 GPT 代码进行详解,并给出一个使用它训练 GPT 模型计算两位数加法的例子原创 2023-07-31 04:59:31 · 4081 阅读 · 2 评论 -
序列模型(2)—— 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT
快速串联 RNN / LSTM / Attention / transformer / BERT / GPT原创 2022-12-02 21:33:11 · 4845 阅读 · 9 评论 -
序列模型(1)—— 难处理的序列数据
生活中常见的股价曲线等时序数据、文本音视频等结构化数据都是 “序列数据”,在机器学习中处理序列数据,需要新的统计工具和网络结构原创 2022-11-01 01:56:45 · 1743 阅读 · 0 评论