- 博客(12)
- 收藏
- 关注
原创 Transformer
the output length is determined by model.(语音辨识,机器翻译,语音翻译)(聊天机器人QA)(Multi-label Classification)(目标检测)输入a到self-attention,得到b + a(残差) b+a通过norm得到均值方差作正则化 得到一个输出x',经过FC后加上残差再做正则化得到输出。self-atteion和masked self-attention区别,保证模型看不到未来信息,实现自回归。decoder的输入也是子集的输出。
2025-11-16 15:11:43
94
原创 自注意力机制(下)
有一个truncated self-attention方法只考虑小范围。self-attention可以平行处理所有输出,运算速度更快。为什么会这样,因为self-attention弹性比较大。相当于多个专家(词汇、语法等等)来学习不同的关系模式。CNN可以看作简化版的self-attention。所产生的attention matrix会很大。
2025-11-04 18:53:51
176
原创 自注意力机制(上)
full-connection network和self-attention可以交替使用。输入和输出一样多:sequence labeling。一个graph也是一堆长度不一的向量。一段声音讯号就是一排长度不一的向量。考虑一个window解决不了怎么办。一个句子就是一排长度不一的向量。
2025-10-28 19:47:24
139
原创 卷积神经网络
large model bias无所谓,因为卷积神经网络是专门为影像设计的。图像分类:如图weight会非常多;我们并不需要取完整的图片,可以做简化。pooling max pooling(不需要learning)简化方式:确定一个receptive field。参数共享Farameter sharing。层数越深filter查看的面积越大。CNN(专门用在影像上的)
2025-10-27 19:40:10
188
原创 类神经网络训练不起来怎么办(五)
即第一层权重变化会导致接下去层的变化,batchnorm可以优化这一点。Considering deep learning每层都要归一化处理。只考虑一个batch也即是batch normalization。Internal covariate shift漂移。这样可以有个好的error surface。用训练时积攒的全局均值方差做测试。均值变0,标准差变1。
2025-10-21 20:59:48
201
原创 类神经网络训练不起来怎么办(三)
过程中loss下降到不再下降,我们认为卡在critical point,意味着gradient很小。Learning Rate Scheduling 让学习率随时间减小。学习率过大或过小都无法到达最低点,所以学习率应该要为每个参数客制化。多数时候还没有走到critical point时loss就停止了。新增加一个变量α,使得新的参数对目前参数变化的权重更大。但我们希望同一参数同一方向学习率也能动态变化。常见类型Root Mean Square。实际可能在山谷壁上震荡。
2025-10-20 19:09:49
132
原创 类神经网络训练不起来怎么办(二)
因为并行计算的存在,一个epoch中large batch因为update次数少的原因效率可能更高。两种极端情况:batch size = 1 batch size = N。但实际上noisy的small batch效果可能更好。遍历所有Batch为一个epoch。每次遍历要进行一次shuffle。Batch and Momentum训练技巧。
2025-10-12 14:15:26
174
原创 机器学习任务攻略
因此在整个过程中我们会将资料分为training set, validation set, testing set。通过分别得到不同数据集上的loss来确定模型的优秀程度。
2025-04-21 09:02:07
175
原创 预测本频道观看人数(上)
1.Function with unknown parameters(未知参数 learning from data)机器学习(Machine Learning)即寻找一个函数Looking for Function。: learning rate(学习率) 作为hyperparameters(自己设定的参数)存在问题:local minima, global minima。structured learning 学会创造。使用Grade Descent。
2024-03-01 10:04:52
387
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅