
LLM学习路线
文章平均质量分 83
雨墨C
这个作者很懒,什么都没留下…
展开
-
LLM学习之路-01-第一章-预训练/神经网络的优化器(十二)RAdam
神经网络的优化器(十二)RAdam原创 2025-03-22 10:00:00 · 596 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/神经网络的优化器(九)Adam
神经网络的优化器(九)Adam原创 2025-03-18 10:15:00 · 1469 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/神经网络的优化器(八)RMSprop
神经网络的优化器(八)RMSprop原创 2025-03-18 10:00:00 · 248 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/神经网络的优化器(七)AdaDeleta
神经网络的优化器(七)AdaDeleta原创 2025-03-17 10:15:00 · 517 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/神经网络的优化器(六)AdaGrad
神经网络的优化器(六)AdaGrad原创 2025-03-17 10:00:00 · 1097 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/神经网络的优化器(五)Rprop
神经网络的优化器(五)Rprop原创 2025-03-16 17:28:50 · 304 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/神经网络的优化器(四)ASGD
神经网络的优化器(四)ASGD原创 2025-03-16 10:00:00 · 552 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/神经网络的优化器(二)SGD
神经网络的优化器(二)SGD原创 2025-03-15 10:00:00 · 1555 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/神经网络的优化器(一)概述
神经网络的优化器(一)概述原创 2025-03-14 20:08:32 · 854 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/看懂FlashAttention需要的数学储备是?高考数学最后一道大题!
看懂FlashAttention需要的数学储备是?高考数学最后一道大题!原创 2025-03-14 20:00:35 · 848 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/最美的数学公式-欧拉公式
最美的数学公式-欧拉公式原创 2025-03-13 10:00:00 · 1062 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器(六)
搞懂大模型的分词器(六)原创 2025-03-12 10:15:00 · 465 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器(五)
搞懂大模型的分词器(五)原创 2025-03-11 20:33:35 · 381 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器(四)
搞懂大模型的分词器(四)原创 2025-03-11 10:15:00 · 773 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器(三)
搞懂大模型的分词器(三)原创 2025-03-11 10:00:00 · 317 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/搞懂大模型的分词器(二)
搞懂大模型的分词器(二)原创 2025-03-10 10:15:00 · 469 阅读 · 0 评论 -
LLM-01-第一章-预训练/搞懂大模型的分词器(一)
搞懂大模型的分词器(一)原创 2025-03-10 10:00:00 · 1133 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/大模型训练框架(五)Accelerate
大模型训练框架(五)Accelerate原创 2025-03-09 10:15:00 · 650 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/大模型训练框架(三)DeepSpeed
大模型训练框架(三)DeepSpeed原创 2025-03-08 10:15:00 · 576 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/大模型训练框架(二)FSDP
大模型训练框架(二)FSDP原创 2025-03-08 10:00:00 · 634 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/大模型分布式训练并行技术(一)概述
大模型分布式训练并行技术原创 2025-03-05 20:51:53 · 431 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/全网最全的大模型分词器(Tokenizer)总结
全网最全的大模型分词器(Tokenizer)总结原创 2025-03-05 10:15:00 · 794 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/从欧拉公式的美到旋转位置编码RoPE
从欧拉公式的美到旋转位置编码RoPE原创 2025-03-05 10:00:00 · 818 阅读 · 0 评论 -
LLM学习之路-第一章-预训练/什么是大模型的位置编码Position-Encoding
什么是大模型的位置编码Position-Encoding原创 2025-03-04 10:00:00 · 1258 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/为什么会发展出Multi-Query-Attention和Group-Query-Attention
为什么会发展出Multi-Query-Attention和Group-Query-Attention原创 2025-03-03 19:54:00 · 221 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/一文了解Deepseek系列中的MLA技术
一文了解Deepseek系列中的MLA技术原创 2025-03-03 15:37:30 · 1252 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/FlashAttentionv2相比于v1有哪些更新?
FlashAttentionv2相比于v1有哪些更新?原创 2025-03-03 15:13:54 · 1036 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm
LLM学习路线原创 2025-03-02 21:26:08 · 916 阅读 · 0 评论 -
LLM学习之路-01-第一章-预训练/10分钟了解什么是多模态大模型
LLM学习路线原创 2025-03-01 22:15:39 · 480 阅读 · 0 评论 -
LLM学习路线-00-序-AGI之路/智能涌现和AGI的起源
LLM学习路线原创 2025-02-28 20:09:36 · 1146 阅读 · 1 评论 -
LLM学习路线-00-序-AGI之路/大家都在谈的ScalingLaw是什么
LLM的学习之路原创 2025-02-28 19:49:57 · 614 阅读 · 0 评论