LLM学习路线_雨墨C的博客-优快云博客

LLM学习路线

关注

文章平均质量分 83

关注数：文章数：31 文章阅读量：23458 文章收藏量：471

作者: 雨墨C

这个作者很懒，什么都没留下…

展开

LLM学习之路-01-第一章-预训练/神经网络的优化器（十二）RAdam

神经网络的优化器（十二）RAdam

原创 2025-03-22 10:00:00 · 596 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/神经网络的优化器（九）Adam

神经网络的优化器（九）Adam

原创 2025-03-18 10:15:00 · 1469 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/神经网络的优化器（八）RMSprop

神经网络的优化器（八）RMSprop

原创 2025-03-18 10:00:00 · 248 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/神经网络的优化器（七）AdaDeleta

神经网络的优化器（七）AdaDeleta

原创 2025-03-17 10:15:00 · 517 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/神经网络的优化器（六）AdaGrad

神经网络的优化器（六）AdaGrad

原创 2025-03-17 10:00:00 · 1097 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/神经网络的优化器（五）Rprop

神经网络的优化器（五）Rprop

原创 2025-03-16 17:28:50 · 304 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/神经网络的优化器（四）ASGD

神经网络的优化器（四）ASGD

原创 2025-03-16 10:00:00 · 552 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/神经网络的优化器（二）SGD

神经网络的优化器（二）SGD

原创 2025-03-15 10:00:00 · 1555 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/神经网络的优化器（一）概述

神经网络的优化器（一）概述

原创 2025-03-14 20:08:32 · 854 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/看懂FlashAttention需要的数学储备是？高考数学最后一道大题！

看懂FlashAttention需要的数学储备是？高考数学最后一道大题！

原创 2025-03-14 20:00:35 · 848 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/最美的数学公式-欧拉公式

最美的数学公式-欧拉公式

原创 2025-03-13 10:00:00 · 1062 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（六）

搞懂大模型的分词器（六）

原创 2025-03-12 10:15:00 · 465 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（五）

搞懂大模型的分词器（五）

原创 2025-03-11 20:33:35 · 381 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（四）

搞懂大模型的分词器（四）

原创 2025-03-11 10:15:00 · 773 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（三）

搞懂大模型的分词器（三）

原创 2025-03-11 10:00:00 · 317 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（二）

搞懂大模型的分词器（二）

原创 2025-03-10 10:15:00 · 469 阅读 · 0 评论
LLM-01-第一章-预训练/搞懂大模型的分词器（一）

搞懂大模型的分词器（一）

原创 2025-03-10 10:00:00 · 1133 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/大模型训练框架（五）Accelerate

大模型训练框架（五）Accelerate

原创 2025-03-09 10:15:00 · 650 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/大模型训练框架（三）DeepSpeed

大模型训练框架（三）DeepSpeed

原创 2025-03-08 10:15:00 · 576 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/大模型训练框架（二）FSDP

大模型训练框架（二）FSDP

原创 2025-03-08 10:00:00 · 634 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/大模型分布式训练并行技术（一）概述

大模型分布式训练并行技术

原创 2025-03-05 20:51:53 · 431 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/全网最全的大模型分词器（Tokenizer）总结

全网最全的大模型分词器（Tokenizer）总结

原创 2025-03-05 10:15:00 · 794 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/从欧拉公式的美到旋转位置编码RoPE

从欧拉公式的美到旋转位置编码RoPE

原创 2025-03-05 10:00:00 · 818 阅读 · 0 评论
LLM学习之路-第一章-预训练/什么是大模型的位置编码Position-Encoding

什么是大模型的位置编码Position-Encoding

原创 2025-03-04 10:00:00 · 1258 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/为什么会发展出Multi-Query-Attention和Group-Query-Attention

为什么会发展出Multi-Query-Attention和Group-Query-Attention

原创 2025-03-03 19:54:00 · 221 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/一文了解Deepseek系列中的MLA技术

一文了解Deepseek系列中的MLA技术

原创 2025-03-03 15:37:30 · 1252 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/FlashAttentionv2相比于v1有哪些更新？

FlashAttentionv2相比于v1有哪些更新？

原创 2025-03-03 15:13:54 · 1036 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm

LLM学习路线

原创 2025-03-02 21:26:08 · 916 阅读 · 0 评论
LLM学习之路-01-第一章-预训练/10分钟了解什么是多模态大模型

LLM学习路线

原创 2025-03-01 22:15:39 · 480 阅读 · 0 评论
LLM学习路线-00-序-AGI之路/智能涌现和AGI的起源

LLM学习路线

原创 2025-02-28 20:09:36 · 1146 阅读 · 1 评论
LLM学习路线-00-序-AGI之路/大家都在谈的ScalingLaw是什么

LLM的学习之路

原创 2025-02-28 19:49:57 · 614 阅读 · 0 评论

LLM学习路线

作者: 雨墨C

LLM学习之路-01-第一章-预训练/神经网络的优化器（十二）RAdam

LLM学习之路-01-第一章-预训练/神经网络的优化器（九）Adam

LLM学习之路-01-第一章-预训练/神经网络的优化器（八）RMSprop

LLM学习之路-01-第一章-预训练/神经网络的优化器（七）AdaDeleta

LLM学习之路-01-第一章-预训练/神经网络的优化器（六）AdaGrad

LLM学习之路-01-第一章-预训练/神经网络的优化器（五）Rprop

LLM学习之路-01-第一章-预训练/神经网络的优化器（四）ASGD

LLM学习之路-01-第一章-预训练/神经网络的优化器（二）SGD

LLM学习之路-01-第一章-预训练/神经网络的优化器（一）概述

LLM学习之路-01-第一章-预训练/看懂FlashAttention需要的数学储备是？高考数学最后一道大题！

LLM学习之路-01-第一章-预训练/最美的数学公式-欧拉公式

LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（六）

LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（五）

LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（四）

LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（三）

LLM学习之路-01-第一章-预训练/搞懂大模型的分词器（二）

LLM-01-第一章-预训练/搞懂大模型的分词器（一）

LLM学习之路-01-第一章-预训练/大模型训练框架（五）Accelerate

LLM学习之路-01-第一章-预训练/大模型训练框架（三）DeepSpeed

LLM学习之路-01-第一章-预训练/大模型训练框架（二）FSDP

LLM学习之路-01-第一章-预训练/大模型分布式训练并行技术（一）概述

LLM学习之路-01-第一章-预训练/全网最全的大模型分词器（Tokenizer）总结

LLM学习之路-01-第一章-预训练/从欧拉公式的美到旋转位置编码RoPE

LLM学习之路-第一章-预训练/什么是大模型的位置编码Position-Encoding

LLM学习之路-01-第一章-预训练/为什么会发展出Multi-Query-Attention和Group-Query-Attention

LLM学习之路-01-第一章-预训练/一文了解Deepseek系列中的MLA技术

LLM学习之路-01-第一章-预训练/FlashAttentionv2相比于v1有哪些更新？

LLM学习之路-01-第一章-预训练/10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm

LLM学习之路-01-第一章-预训练/10分钟了解什么是多模态大模型

LLM学习路线-00-序-AGI之路/智能涌现和AGI的起源

LLM学习路线-00-序-AGI之路/大家都在谈的ScalingLaw是什么