自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Transformer

the output length is determined by model.(语音辨识,机器翻译,语音翻译)(聊天机器人QA)(Multi-label Classification)(目标检测)输入a到self-attention,得到b + a(残差) b+a通过norm得到均值方差作正则化 得到一个输出x',经过FC后加上残差再做正则化得到输出。self-atteion和masked self-attention区别,保证模型看不到未来信息,实现自回归。decoder的输入也是子集的输出。

2025-11-16 15:11:43 94

原创 自注意力机制(下)

有一个truncated self-attention方法只考虑小范围。self-attention可以平行处理所有输出,运算速度更快。为什么会这样,因为self-attention弹性比较大。相当于多个专家(词汇、语法等等)来学习不同的关系模式。CNN可以看作简化版的self-attention。所产生的attention matrix会很大。

2025-11-04 18:53:51 176

原创 自注意力机制(上)

full-connection network和self-attention可以交替使用。输入和输出一样多:sequence labeling。一个graph也是一堆长度不一的向量。一段声音讯号就是一排长度不一的向量。考虑一个window解决不了怎么办。一个句子就是一排长度不一的向量。

2025-10-28 19:47:24 139

原创 卷积神经网络

large model bias无所谓,因为卷积神经网络是专门为影像设计的。图像分类:如图weight会非常多;我们并不需要取完整的图片,可以做简化。pooling max pooling(不需要learning)简化方式:确定一个receptive field。参数共享Farameter sharing。层数越深filter查看的面积越大。CNN(专门用在影像上的)

2025-10-27 19:40:10 188

原创 类神经网络训练不起来怎么办(五)

即第一层权重变化会导致接下去层的变化,batchnorm可以优化这一点。Considering deep learning每层都要归一化处理。只考虑一个batch也即是batch normalization。Internal covariate shift漂移。这样可以有个好的error surface。用训练时积攒的全局均值方差做测试。均值变0,标准差变1。

2025-10-21 20:59:48 201

原创 类神经网络训练不起来怎么办(四)

可以用one-hot vector表示class。左上走到右下,交叉熵才能走下去。交叉熵为什么更好用?

2025-10-20 19:22:53 63

原创 类神经网络训练不起来怎么办(三)

过程中loss下降到不再下降,我们认为卡在critical point,意味着gradient很小。Learning Rate Scheduling 让学习率随时间减小。学习率过大或过小都无法到达最低点,所以学习率应该要为每个参数客制化。多数时候还没有走到critical point时loss就停止了。新增加一个变量α,使得新的参数对目前参数变化的权重更大。但我们希望同一参数同一方向学习率也能动态变化。常见类型Root Mean Square。实际可能在山谷壁上震荡。

2025-10-20 19:09:49 132

原创 类神经网络训练不起来怎么办(二)

因为并行计算的存在,一个epoch中large batch因为update次数少的原因效率可能更高。两种极端情况:batch size = 1 batch size = N。但实际上noisy的small batch效果可能更好。遍历所有Batch为一个epoch。每次遍历要进行一次shuffle。Batch and Momentum训练技巧。

2025-10-12 14:15:26 174

原创 类神经网络训练不起来怎么办(一)

local minima 并不常见,也有可能是saddle point。

2025-08-16 13:03:49 195

原创 机器学习任务攻略

因此在整个过程中我们会将资料分为training set, validation set, testing set。通过分别得到不同数据集上的loss来确定模型的优秀程度。

2025-04-21 09:02:07 175

原创 预测本频道观看人数(下)

机器学习2021

2025-04-11 09:29:31 229

原创 预测本频道观看人数(上)

1.Function with unknown parameters(未知参数 learning from data)机器学习(Machine Learning)即寻找一个函数Looking for Function。: learning rate(学习率) 作为hyperparameters(自己设定的参数)存在问题:local minima, global minima。structured learning 学会创造。使用Grade Descent。

2024-03-01 10:04:52 387 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除