机器学习笔记
jack1ylE
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer
the output length is determined by model.(语音辨识,机器翻译,语音翻译)(聊天机器人QA)(Multi-label Classification)(目标检测)输入a到self-attention,得到b + a(残差) b+a通过norm得到均值方差作正则化 得到一个输出x',经过FC后加上残差再做正则化得到输出。self-atteion和masked self-attention区别,保证模型看不到未来信息,实现自回归。decoder的输入也是子集的输出。原创 2025-11-16 15:11:43 · 94 阅读 · 0 评论 -
自注意力机制(下)
有一个truncated self-attention方法只考虑小范围。self-attention可以平行处理所有输出,运算速度更快。为什么会这样,因为self-attention弹性比较大。相当于多个专家(词汇、语法等等)来学习不同的关系模式。CNN可以看作简化版的self-attention。所产生的attention matrix会很大。原创 2025-11-04 18:53:51 · 176 阅读 · 0 评论 -
自注意力机制(上)
full-connection network和self-attention可以交替使用。输入和输出一样多:sequence labeling。一个graph也是一堆长度不一的向量。一段声音讯号就是一排长度不一的向量。考虑一个window解决不了怎么办。一个句子就是一排长度不一的向量。原创 2025-10-28 19:47:24 · 139 阅读 · 0 评论 -
卷积神经网络
large model bias无所谓,因为卷积神经网络是专门为影像设计的。图像分类:如图weight会非常多;我们并不需要取完整的图片,可以做简化。pooling max pooling(不需要learning)简化方式:确定一个receptive field。参数共享Farameter sharing。层数越深filter查看的面积越大。CNN(专门用在影像上的)原创 2025-10-27 19:40:10 · 188 阅读 · 0 评论 -
类神经网络训练不起来怎么办(五)
即第一层权重变化会导致接下去层的变化,batchnorm可以优化这一点。Considering deep learning每层都要归一化处理。只考虑一个batch也即是batch normalization。Internal covariate shift漂移。这样可以有个好的error surface。用训练时积攒的全局均值方差做测试。均值变0,标准差变1。原创 2025-10-21 20:59:48 · 201 阅读 · 0 评论 -
类神经网络训练不起来怎么办(四)
可以用one-hot vector表示class。左上走到右下,交叉熵才能走下去。交叉熵为什么更好用?原创 2025-10-20 19:22:53 · 63 阅读 · 0 评论 -
类神经网络训练不起来怎么办(三)
过程中loss下降到不再下降,我们认为卡在critical point,意味着gradient很小。Learning Rate Scheduling 让学习率随时间减小。学习率过大或过小都无法到达最低点,所以学习率应该要为每个参数客制化。多数时候还没有走到critical point时loss就停止了。新增加一个变量α,使得新的参数对目前参数变化的权重更大。但我们希望同一参数同一方向学习率也能动态变化。常见类型Root Mean Square。实际可能在山谷壁上震荡。原创 2025-10-20 19:09:49 · 132 阅读 · 0 评论 -
机器学习任务攻略
因此在整个过程中我们会将资料分为training set, validation set, testing set。通过分别得到不同数据集上的loss来确定模型的优秀程度。原创 2025-04-21 09:02:07 · 175 阅读 · 0 评论 -
类神经网络训练不起来怎么办(一)
local minima 并不常见,也有可能是saddle point。原创 2025-08-16 13:03:49 · 195 阅读 · 0 评论 -
类神经网络训练不起来怎么办(二)
因为并行计算的存在,一个epoch中large batch因为update次数少的原因效率可能更高。两种极端情况:batch size = 1 batch size = N。但实际上noisy的small batch效果可能更好。遍历所有Batch为一个epoch。每次遍历要进行一次shuffle。Batch and Momentum训练技巧。原创 2025-10-12 14:15:26 · 174 阅读 · 0 评论 -
预测本频道观看人数(下)
机器学习2021原创 2025-04-11 09:29:31 · 229 阅读 · 0 评论 -
预测本频道观看人数(上)
1.Function with unknown parameters(未知参数 learning from data)机器学习(Machine Learning)即寻找一个函数Looking for Function。: learning rate(学习率) 作为hyperparameters(自己设定的参数)存在问题:local minima, global minima。structured learning 学会创造。使用Grade Descent。原创 2024-03-01 10:04:52 · 387 阅读 · 1 评论
分享