派森垂恩-优快云博客

原创 DeepSeek_v2学习笔记

然后根据每个device的容量因子，来适当的丢弃一些token，就比如某个device的容量因子为0.8，但是可能分配给当前device的计算量较大，0.8的容量因子并不能满足，因此就丢弃一些token，从而恰好使得剩下的token的计算量恰好占满这0.8的容量因子。唯一不同的就是在Deepseek_V2这篇论文中指出了，尽管在DeepSeekMOE这篇论文中设置了许多loss专门用于均衡不同expert之间的负载，但是也并不能保证真正达到平衡，因为网络最终学成什么样，也是不确定的。

2025-02-18 16:46:09 980

原创 DeepSeekMoE学习笔记

DeepseekMoE的学习笔记

2025-01-07 12:12:41 2083 1

原创 YOLOv4学习笔记

之后让gt的坐标减去对应的控制跨grid cell的坐标(0,1)(1,0)(-1,0)(0,-1)乘以阈值，接着让得到的gt坐标减去它中心点落在的那个grid cell的横纵坐标，这样得到的结果，xy的值一定是在-0.5-1.5之间的(不过没有关系，后续将prediction的值也限制在-0.5-1.5之间就可以了)。但是当一次性训练一个batch时，由于硬件限制，不能实现，所以要将这个batch拆成更小的mini batch来计算，每个mini batch计算结束后，在汇总得到整个batch的计算量。

2025-01-01 17:13:35 1607