0基础快速入门整数的读写-优快云博客

引入对比学习来实现自监督训练

2022-11-19 19:30:51 805

从最小二乘，极大似然估计出发讨论损失函数设计。根据信息量和KL散度推导交叉熵

2022-11-13 22:00:05 663

Vision Transformer的整体结构详解，以及该论文提供的一些很有意思的思路记录。Embedding层的设计，Position Embedding添加位置编码，以及分类头[class]token，Encoder中的layer norm,多头注意力和dropout详解，MLP设计。

2022-11-08 14:36:36 1149 2

ShuffleNetV2论文中对计算复杂度以及优化做了非常深度的分析，在评价计算复杂度的时候，其实看的时整体运行时间，而不是单看模型的理论计算量FLOPs

2022-11-02 19:41:11 707

resnet可以堆叠上千层，但简单堆叠卷积层会造成梯度消失梯度爆炸，以及退化问题，本文深入讨论了使用BN来防止梯度消失/梯度爆炸，并加速训练，使用残差结构解决退化问题，并分析了两种两种不同的残差块，以及分析了resnext中使用组卷积优化后的残差块

2022-11-01 22:33:54 1783

对MobileNetV3网络结构进行详解，主要介绍了更新的Block如何添加注意力，和对耗时层结构的重新设计，以及重新设计了效果更好而且不增加计算难度的激活函数

2022-10-30 14:07:27 2952 1

对MobileNetV1中的深度可分离卷积与传统卷积做对比，详细分析了逐通道卷积和逐点卷积，并分析了MobileNetV2对于MobileNetV1有哪些改进，对提出的倒残差结构做了详细分析，以及降维时的特征损失的数学解释。v1,v2整体网络模型实现时的一些细节。

2022-10-28 18:20:46 1396 1

transformer网络模型详细解析

2022-10-27 13:21:14 1189

注意力机制从统计学角度的非参注意力，到自注意力机制，以及多头自注意力机制（Multi-head Self-attention）的介绍和Position Encoding问题的引出。

2022-10-25 12:16:37 1268 1

weixin_43605214的博客