
深度学习
文章平均质量分 75
MaxeeoveCR
DL && ML
展开
-
【代码解析】mmaction2: Video Swin Transformer
网络结构在DHW三维上构建window进行self-attention提取,所以同时提取了spatial和temporal两个维度的关联性SwinTransformer3Dpatch_embed: PatchEmbed3D 将输入三维信号切分成多个3d-patch,patch_size默认(2,4,4),对每个patch使用3d-conv进行特征提取并降采样padding:对无法被patch_size整除维度进行填零paddingself.proj = conv3d(3, 96, ke.原创 2022-04-22 17:13:18 · 4727 阅读 · 6 评论 -
【代码解析】mmaction2: SlowFast
网络分成slow pathway和fast pathway分别对spatial和temporal维度特征进行提取Backbonefast_pathway:x_fastnn.functional.interpolate(): Fast pathway在时间维度进行密集采样,空间维度不变。self.slow_path.conv1: kernel=(5,7,7) 输出尺度 e.g. (N_fast,64,5,H,W)x_fast_lateral: ConvModule(kernel_size原创 2022-04-07 18:37:07 · 4219 阅读 · 0 评论 -
NMS实现(C++)
思路1.对所有Pred框依据置信度排序2.遍历所有Pred框3.计算Pred当前框P(i)和其余候选框P(j)的IOU4.如果IOU>thresh,从预测框集合中剔除P(j)代码//构造函数、析构函数、拷贝构造函数、运算符重载函数、取地址符重载函数、const修饰的取地址符重载函数Class Rect{ Rect(){}; Rect(int x, int y, int w, int h, float score) { this->x = x; this->y原创 2021-10-22 18:36:06 · 477 阅读 · 0 评论 -
卷积 vs. 深度可分离卷积(FLOPs计算量)
卷积 vs. 深度可分离卷积(FLOPs计算量)FLOPs(FLoat Point OPerations)浮点计算量1.二维卷积输入特征图:(H,W,Cin)(H,W,C_{in})(H,W,Cin)卷积核:(K,Cout)(K,C_{out})(K,Cout),步长为SSS,Padding为PPP输出特征图:(Hout,Wout,Cout)(H_{out},W_{out},C_{out})(Hout,Wout,Cout)其中Hout=(H+2∗P−K+1)/SH_{out}原创 2021-10-12 20:35:55 · 1234 阅读 · 0 评论