NPG、兼容函数逼近定理、TRPO、PPO、DPO
2025-04-26 17:10:26
561
强化学习基础理论与高级DQN算法及策略梯度基础
2025-04-25 13:43:52
463
数值分析与离散数学
2025-04-12 14:11:40
1156
图论与信息论
2025-04-12 13:31:16
1230
线代与优化
2025-04-11 14:01:24
2293
微积分与概率论
2025-04-11 10:32:51
1141
从数学理论到编程实践:并行采样+顺序修订的联合优化
2025-04-10 12:42:03
985
从数学理论到编程实践:带你学习树形思维探索(ToT)
2025-04-10 12:26:17
1104
从数学理论到编程实践:CoT的多路径生成与自洽性验证
2025-04-09 08:37:06
1328
在开始前请确保您有一定的LLM基础和强化学习基础😊如果您没有RL基础我推荐David Sliver的讲座(前三集即可)
2025-04-09 02:30:00
1818
从数学理论到编程实践:数据统计方法中的投票策略
2025-04-08 12:49:32
831
从数学理论到编程实践:使用Triton实现FlashAttention的三个版本
2025-04-08 10:14:24
2930
从数学理论到编程实践:分析三种量化方法
2025-04-07 17:59:29
976
从数学理论到编程实践:Pytorch实现多头注意力到Triton优化
2025-04-07 00:02:24
1317
从数学理论到代码实现学习BPE算法
2025-04-06 11:46:37
1280
三种搜索算法从数学视角到代码实现,并附有我的github仓库
2025-04-06 00:42:01
1339