
机器学习
文章平均质量分 81
choose_c
总有人要赢,那为什么不是我。
展开
-
data2vec: A General Framework for Self-supervised Learning in Speech,Vision and Language
abstract 不同模态下的自监督学习的总体思想一致,但是在实际过程中的算法和目标却有很大的不同。 data2vec是一个语音、nlp、cv不同领域下通用的自监督学习框架。 其主要的思想是:在标准的Transformer结构下,对数据进行 mask 后,使用 自蒸馏 方法,预测 隐性表示。 该方法预测了整个输入的上下文隐性表示,而不同于在单模态下的预测某个单元(word、visual token、speech unit)的局部信息。 ps:首先目前来说transf...原创 2022-03-07 21:01:42 · 3497 阅读 · 0 评论 -
花书中深度模型的优化
1.随机梯度下降随机梯度下降(SGD)很可能是一般机器学习中应用最多的优化算法。学习率是SGD中的一个重要的参数,在实践中,有必要随着训练时间的推移逐渐降低;但是在批量梯度下降时,由于整个代价函数会降到0,所以批量梯度下降可以使用固定的学习率。SGD中学习率的选择是与其说是科学不如说是一门艺术。优化效果和收敛率是优化算法两个重要的指标。2.动量3.自适应算法4.参数初始化5.。。。。...原创 2020-11-15 13:56:56 · 112 阅读 · 0 评论 -
花书中dropout的介绍
Dropout dropout可以被认为是继承大量深层神经网络的使用bagging方法。bagging需要训练多个模型,如果每个模型都是很大的神经网络的话是不切实际的。dropout的目标是在指数级数量的神经网络上近似bagging过程。bagging和dropout的差异 训练不太一样,bagging的训练,所有的模型都是独立的;在dropout中所有模型共享参数,每个模型继承大神经网络参数的不同子集(共享参数也使得每个子模型都有很好的参数设定)。其他两者之间没有太多区别,训练中遇...原创 2020-11-07 10:35:33 · 324 阅读 · 0 评论 -
神经网络中的激活函数、优化方法
一文概览深度学习中的激活函数:https://blog.youkuaiyun.com/uwr44uouqcnsuqb60zk2/article/details/78441062BERT中的GELU:https://www.cnblogs.com/shiyublog/p/11121839.html神经网络中的各种优化方法:https://blog.youkuaiyun.com/autocyz/artic...原创 2020-03-22 17:45:46 · 289 阅读 · 0 评论 -
RNN,LSTM,GRU
RNNLSTM三个门(遗忘门,输入门,输出门),隐层h,记忆细胞cell。GRU两个门(重置门,更新门),隐层h。原创 2020-03-07 14:27:53 · 225 阅读 · 0 评论 -
深入理解GANs(生成对抗网络)
本文与前文VAE出自同一作者,在此笔者进行翻译总结。生成随机变量 从生成随机变量开始讨论,均匀分布变量可以通过伪随机数过程生成。生成随机变量的方法有很多,比如拒绝采样,Metropolis-Hasting algorithm和逆变换放法。逆变换法的思想就是均匀分布的变量通过累积分布概率(CDF)的逆函数得到新的分布。下图为通过逆变换法使用均匀分布得到高斯分布:蓝色:[0,...原创 2019-10-20 16:25:19 · 662 阅读 · 0 评论 -
正态分布的前世今生总结
原文链接:https://cosx.org/2013/01/story-of-normal-distribution-1该博文详细介绍了正态分布的起源和发展。伽利略关于误差的描述:1.观测数据存在误差;2.误差是对称分布的;3.大的误差出现频率低,小的误差出现的频率高。棣莫弗-拉普拉斯中心极限定理:二项分布序列求和的极限是正态分布。更加一般化的中心极限定理:...原创 2019-10-19 16:29:07 · 1373 阅读 · 0 评论 -
深入理解VAE(变分自编码器)
原文地址:https://pan.baidu.com/s/1LNolV-_SZcEhV0vz2RkDRQ;本文进行翻译和总结。VAEVAE是两种主要神经网络生成模型中的一种,另一种典型的方法是GAN。VAE是一种自编码器,在训练时将数据编码成正则化的隐层分布,该隐层分布可以生成新的数据。其中,"变分"一词来自正则化和统计学中变分推断的关系。本文想要解决的问题:1.什么是自...原创 2019-10-07 15:05:40 · 14108 阅读 · 1 评论 -
深度学习中初始化方法:xavier和MSRA
Xavier初始化方法源自论文:Understanding the difficulty of training deep feedforward neural networks Xavier;Bengio思想:正向传播时,每层激活值的均值为0,方差相同,反向传播时,每层状态值的梯度的均值为0,方差相同。方法:权重满足均匀分布 , 如果各层大小相同则方...原创 2019-09-08 18:26:14 · 491 阅读 · 0 评论 -
Normalization总结
本文是对张俊林的博文:深度学习中的Normalization模型 归纳总结。原博文地址:https://mp.weixin.qq.com/s/BPPGr7_5nVQXXYC5omHRTANormalization:规范化规范化分为两种,一种是权重规范化,比如L1和L2规范化。另一种是节点规范化,如常见的BatchNorm。BatchNorm本文主要讲的是后者BatchN...原创 2019-08-25 21:09:41 · 302 阅读 · 0 评论 -
白板推导
视频地址:bilibili搜索白板推导。github地址:https://github.com/shuhuai007/Machine-Learning-Session;内有视频顺序链接和pdf。原创 2019-07-21 08:50:35 · 690 阅读 · 1 评论 -
白板推导:线性回归
数据:X:N*P;Y:N*1;W:p*1。N为数据样本数量,P数据维度。最小二乘估计(LSE):损失函数: 矩阵推导:将损失函数表示成矩阵相乘。几何意义:Y-Xw:误差向量,X表示特征空间;误差向量和特征空间的任何向量垂直(独立)。===>正则化:当数据样本...原创 2019-07-21 09:41:48 · 218 阅读 · 0 评论 -
白板推导:线性分类
线性回归的三个特性:线性,全局性,数据未加工。打破其中一个特性可以转换成其他算法模型。 属性非线性(特征) 特征转换(多项式回归)1.线性 全局非线性(输出) 线性分类(激活函数) 系数非线性(参数) 神经网络2.全局性 输入x分段 决策树3.数据未加工...原创 2019-07-22 22:33:46 · 184 阅读 · 0 评论 -
白板推导:降维
降维 防止过拟合的其中一种方法就是降维,解决的问题就是维度灾难。 从几何角度理解维度灾难(数据稀疏化)PCA一个中心:原始特征空间的重构,将特征从相关变成无关。两个基本点:最大化投影误差和最小重构距离。(两者结果相同,解分别是前n个(主成分)和后n个特征向量)。1.找到主成分2.中心化再投影得到新坐标PCA求解...原创 2019-07-28 22:20:28 · 187 阅读 · 0 评论 -
白板推导:SVM
支持向量机(SVM)svm有三宝:间隔,对偶,核技巧。svm又分成:hard margin svm;soft margin svm;kernel svm间隔svm思想:最大间隔分类器,几何间隔:(点到直线的距离)函数间隔:对于所有的x,满足最近的x与分类平面最远。即:maxmargin(w,b)这是一个二次不等式凸优化。hard mar...原创 2019-08-11 22:49:33 · 365 阅读 · 0 评论 -
白板推导:EM算法与GMM
EM期望最大MLE求解存在隐变量的混合模型时无法得到解析解。EM公式: 其中X是观测变量,Z是隐变量,(X,Z)表示完全数据,θ是参数。EM算法步骤: E-step: M-step...原创 2019-08-25 18:18:06 · 432 阅读 · 0 评论 -
一句话记住:信息熵 相对熵(KL散度) 交叉熵 条件熵 联合熵 及其关系
信息熵:H(X) ,概率为Pi的事件包含的信息量。交叉熵:,使用的分布表示的分布所使用的信息量。相对熵:,使用的分布表示的概率所多使用的信息量。关系:信息熵+相对熵=交叉熵条件熵:,已知事件X发生,Y事件发生包含的信息量。联合熵:,事件X,Y共同发生包含的信息量。关系:信息熵+条件熵=联合熵...原创 2019-05-26 12:06:34 · 766 阅读 · 0 评论