自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 DeepSeek_v2学习笔记

然后根据每个device的容量因子,来适当的丢弃一些token,就比如某个device的容量因子为0.8,但是可能分配给当前device的计算量较大,0.8的容量因子并不能满足,因此就丢弃一些token,从而恰好使得剩下的token的计算量恰好占满这0.8的容量因子。唯一不同的就是在Deepseek_V2这篇论文中指出了,尽管在DeepSeekMOE这篇论文中设置了许多loss专门用于均衡不同expert之间的负载,但是也并不能保证真正达到平衡,因为网络最终学成什么样,也是不确定的。

2025-02-18 16:46:09 980

原创 DeepSeekMoE学习笔记

DeepseekMoE的学习笔记

2025-01-07 12:12:41 2083 1

原创 YOLOv4学习笔记

之后让gt的坐标减去对应的控制跨grid cell的坐标(0,1)(1,0)(-1,0)(0,-1)乘以阈值,接着让得到的gt坐标减去它中心点落在的那个grid cell的横纵坐标,这样得到的结果,xy的值一定是在-0.5-1.5之间的(不过没有关系,后续将prediction的值也限制在-0.5-1.5之间就可以了)。但是当一次性训练一个batch时,由于硬件限制,不能实现,所以要将这个batch拆成更小的mini batch来计算,每个mini batch计算结束后,在汇总得到整个batch的计算量。

2025-01-01 17:13:35 1607

原创 感受野计算以及SPPNet中的坐标对应

感受野的计算公式,以及SPPNet中region proposal坐标和feature map中坐标进行映射的一个推导过程。

2023-03-07 14:22:44 298

原创 selective search算法学习记录

根据python的selectivesearch库实现的selective search算法,记录学习该算法的心得。

2023-02-25 23:25:11 490

原创 YOLOv3学习记录

初学YOLOv3记录。

2023-01-28 18:21:26 551

原创 yolov2学习笔记

yolov2的学习笔记

2022-12-26 11:03:00 336

原创 对pytorch中的dataset和dataloader的一些理解

在学习pytroch中对Datastet以及Dataloader的一些理解。

2022-12-17 14:13:56 637

原创 YOLOv1学习笔记

记录yolov1学习过程中的一些疑惑

2022-12-16 15:53:38 1030 1

原创 seq2seq中的embedding以及attention

记录一下seq2seq模型学习过程中的一些疑惑的地方。

2022-11-30 21:13:31 969

原创 DBNet学习记录

DBNet详解只看这一篇就够了。

2022-11-27 11:24:14 2186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除