- 博客(11)
- 收藏
- 关注
原创 DeepSeek_v2学习笔记
然后根据每个device的容量因子,来适当的丢弃一些token,就比如某个device的容量因子为0.8,但是可能分配给当前device的计算量较大,0.8的容量因子并不能满足,因此就丢弃一些token,从而恰好使得剩下的token的计算量恰好占满这0.8的容量因子。唯一不同的就是在Deepseek_V2这篇论文中指出了,尽管在DeepSeekMOE这篇论文中设置了许多loss专门用于均衡不同expert之间的负载,但是也并不能保证真正达到平衡,因为网络最终学成什么样,也是不确定的。
2025-02-18 16:46:09
980
原创 YOLOv4学习笔记
之后让gt的坐标减去对应的控制跨grid cell的坐标(0,1)(1,0)(-1,0)(0,-1)乘以阈值,接着让得到的gt坐标减去它中心点落在的那个grid cell的横纵坐标,这样得到的结果,xy的值一定是在-0.5-1.5之间的(不过没有关系,后续将prediction的值也限制在-0.5-1.5之间就可以了)。但是当一次性训练一个batch时,由于硬件限制,不能实现,所以要将这个batch拆成更小的mini batch来计算,每个mini batch计算结束后,在汇总得到整个batch的计算量。
2025-01-01 17:13:35
1607
原创 感受野计算以及SPPNet中的坐标对应
感受野的计算公式,以及SPPNet中region proposal坐标和feature map中坐标进行映射的一个推导过程。
2023-03-07 14:22:44
298
原创 selective search算法学习记录
根据python的selectivesearch库实现的selective search算法,记录学习该算法的心得。
2023-02-25 23:25:11
490
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1