jack1ylE-优快云博客

原创 Transformer

the output length is determined by model.(语音辨识，机器翻译，语音翻译)(聊天机器人QA)（Multi-label Classification）(目标检测)输入a到self-attention，得到b + a(残差) b+a通过norm得到均值方差作正则化得到一个输出x',经过FC后加上残差再做正则化得到输出。self-atteion和masked self-attention区别,保证模型看不到未来信息，实现自回归。decoder的输入也是子集的输出。

2025-11-16 15:11:43 94

原创自注意力机制（下）

有一个truncated self-attention方法只考虑小范围。self-attention可以平行处理所有输出，运算速度更快。为什么会这样，因为self-attention弹性比较大。相当于多个专家（词汇、语法等等）来学习不同的关系模式。CNN可以看作简化版的self-attention。所产生的attention matrix会很大。

2025-11-04 18:53:51 176

原创自注意力机制（上）

full-connection network和self-attention可以交替使用。输入和输出一样多：sequence labeling。一个graph也是一堆长度不一的向量。一段声音讯号就是一排长度不一的向量。考虑一个window解决不了怎么办。一个句子就是一排长度不一的向量。

2025-10-28 19:47:24 139

原创卷积神经网络

large model bias无所谓，因为卷积神经网络是专门为影像设计的。图像分类：如图weight会非常多；我们并不需要取完整的图片，可以做简化。pooling max pooling(不需要learning)简化方式：确定一个receptive field。参数共享Farameter sharing。层数越深filter查看的面积越大。CNN（专门用在影像上的）

2025-10-27 19:40:10 188

原创类神经网络训练不起来怎么办(五)

即第一层权重变化会导致接下去层的变化，batchnorm可以优化这一点。Considering deep learning每层都要归一化处理。只考虑一个batch也即是batch normalization。Internal covariate shift漂移。这样可以有个好的error surface。用训练时积攒的全局均值方差做测试。均值变0，标准差变1。

2025-10-21 20:59:48 201

原创类神经网络训练不起来怎么办（四）

可以用one-hot vector表示class。左上走到右下，交叉熵才能走下去。交叉熵为什么更好用？

2025-10-20 19:22:53 63

原创类神经网络训练不起来怎么办（三）

过程中loss下降到不再下降，我们认为卡在critical point,意味着gradient很小。Learning Rate Scheduling 让学习率随时间减小。学习率过大或过小都无法到达最低点，所以学习率应该要为每个参数客制化。多数时候还没有走到critical point时loss就停止了。新增加一个变量α，使得新的参数对目前参数变化的权重更大。但我们希望同一参数同一方向学习率也能动态变化。常见类型Root Mean Square。实际可能在山谷壁上震荡。

2025-10-20 19:09:49 132

原创类神经网络训练不起来怎么办（二）

因为并行计算的存在，一个epoch中large batch因为update次数少的原因效率可能更高。两种极端情况：batch size = 1 batch size = N。但实际上noisy的small batch效果可能更好。遍历所有Batch为一个epoch。每次遍历要进行一次shuffle。Batch and Momentum训练技巧。

2025-10-12 14:15:26 174

原创类神经网络训练不起来怎么办（一）

local minima 并不常见，也有可能是saddle point。

2025-08-16 13:03:49 195

原创机器学习任务攻略

因此在整个过程中我们会将资料分为training set, validation set, testing set。通过分别得到不同数据集上的loss来确定模型的优秀程度。

2025-04-21 09:02:07 175

原创预测本频道观看人数（下）

机器学习2021

2025-04-11 09:29:31 229

原创预测本频道观看人数（上）

1.Function with unknown parameters(未知参数 learning from data)机器学习（Machine Learning）即寻找一个函数Looking for Function。: learning rate(学习率) 作为hyperparameters（自己设定的参数）存在问题：local minima, global minima。structured learning 学会创造。使用Grade Descent。

2024-03-01 10:04:52 387 1

jack1ylE的博客