
机器学习
AliceWanderAI
北邮自动化学院,研究方向:图像处理,机器学习
展开
-
深度学习优化器的原理总结(SGD/SGD with momentum/Adagrad/AdaDelta/RMSProp/Adam/Nadam)
优化器的框架:目标函数关于当前参数的梯度 ; 根据历史梯度计算一阶动量与二阶动量: ; ; 计算当前时刻的下降梯度: ; 根据更新参数: ; 现在我们来一个个分析现有的优化器,如何套入以上的框架。简单来说,它们的区别就在于和的定义。SGD特点:没有使用动量...原创 2020-04-24 16:20:25 · 3629 阅读 · 1 评论 -
Yolo v1 v2 v3的发展与细节
Yolo v1+2+3都是目标检测模型。目标检测模型; Yolo v1 Yolo v2 Yolo v3 总结: 发展路线和区别;一、目标检测模型目标检测可分为两个步骤:Step1: 检测目标位置(生成矩形框)Step2: 对目标物体进行分类物体检测主流算法主要分为one-stage和two-stageOne-stage:Yolo...原创 2020-04-20 17:30:54 · 952 阅读 · 0 评论 -
Adam的原理
Adam是从2个算法脱胎而来的:AdaGrad和RMSProp,它集合了2个算法的主要优点,同时也做了自己的一些创新,大概有这么几个卖点:计算高效,方便实现,内存使用也很少。 更新步长和梯度大小无关,只和alpha、beta_1、beta_2有关系。并且由它们决定步长的理论上限。 对目标函数没有平稳要求,即loss function可以随着时间变化 能较好的处理噪音样本,并且天然具有退火...转载 2020-03-10 13:25:16 · 5462 阅读 · 0 评论 -
数据增强的方法
意义数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值。方法空间几何变换 翻转 翻转包括水平翻转和垂直翻转。 crop 裁剪图片的感兴趣区域(ROI),通常在训练的时候,会采用随机裁剪的方法,下图为随机裁剪4次的效果。 旋转 对图像做一定角度对旋转操作,看看效果。 缩放变形 随机选取图像的...原创 2020-03-10 13:20:42 · 2359 阅读 · 0 评论 -
混淆矩阵
第一种混淆矩阵:真实情况T or F 预测为正例1,P 预测为负例0,N 本来label标记为1,预测结果真为T、假为F TP(预测为1,实际为1) FN(预测为0,实际为1) 本来label标记为0,预测结果真为T、假为F FP(预测为1,实际为0) TN(预测为0,实际也为0) 第二种混淆矩阵:预测情况P or N 实际label为...原创 2020-03-10 13:12:11 · 464 阅读 · 0 评论 -
归一化有哪些类型
线性归一化将原始数据线性化的方法转换到[0 1]的范围,该方法实现对原始数据的等比例缩放。极差变换法通过利用变量取值的最大值和最小值(或者最大值)将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。由于极值化方法在对变量无量纲化过程中仅仅与该变量的最大值和最小值这两个极端值有关,而与其他取值无关,这使得...原创 2020-03-10 13:09:51 · 1933 阅读 · 0 评论 -
哪些机器学习方法不需要做归一化
概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率。像svm、线性回归之类的最优化问题就需要归一化。决策树属于前者(无需归一化)。归一化也是提升算法应用能力的必备能力之一。归一化后加快了梯度下降求最优解的速度和有可能提高精度。...原创 2020-03-10 13:09:30 · 2417 阅读 · 0 评论 -
条件概率的链式法则
条件概率条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为:P(A|B),读作“A在B发生的条件下发生的概率”。若只有两个事件A,B,那么,x=x事件发生时y=y 事件发生的概率: P(y=y|x=x) = P(x=x,y=y) / P(x=x)。条件概率的链式法则,也称为条件概率的乘法法则:P(a,b,c)=P(a|b,c) P(b,c)= P(a|b,c)...原创 2020-03-10 12:58:24 · 8368 阅读 · 1 评论 -
联合概率分布与边缘分布
联合概率分布联合分布函数(joint distribution function)亦称多维分布函数,随机向量的分布函数。以二维情形为例,若(X,Y)是二维随机向量,x、y是任意两个实数,则称二元函数。设(X,Y)是二维随机变量,对于任意实数x,y,二元函数:F(x,y) = P{(X<=x) 交 (Y<=y)} => P(X<=x, Y<=y)称为:二...原创 2020-03-10 12:51:12 · 9428 阅读 · 0 评论 -
牛顿法与梯度下降法的区别
梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为:牛顿法牛顿法是为了求解函数值为零的时候变量的取值问题的,具体地,当要求解 f(θ)=0时,如果 f可导,那么可以通过迭代公式来迭代求得最小值。区别梯度下降的目的是直接求解目标函数极小值,而牛顿法则变相地通过求解目标函数一阶导为零的参数值,进而求得目标函数最小...原创 2020-03-10 12:46:25 · 987 阅读 · 0 评论 -
期望/方差/协方差/相关系数
期望在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。离散型随机变量的一切可能的取值Xi与对应的概率p(xi)乘积之和称为该离散型随机变量的数学期望[2](若该求和绝对收敛),记为E(X)。它是简单算术平均的一种推广,类似加权平均。设连续性随机变量X的概率密度函数为f...原创 2020-03-10 12:41:25 · 1214 阅读 · 0 评论 -
GBDT的训练能否并行,随机森林呢?
首先讲结论:GBDT不可并行训练,随机森林可以并行训练。然后讲原因,如下。GBDT原理:https://blog.youkuaiyun.com/NXHYD/article/details/104601247GBDT是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。可以看到,GBDT每一次训练出来的弱分类器都会被用来进行下一个弱分类...原创 2020-03-06 13:24:38 · 1381 阅读 · 1 评论 -
LR和SVM的区别与联系
“LR和SVM本质不同在于loss function的不同“LR的损失函数是Cross entropy loss,svm的损失函数是Hinge loss,两个模型都属于线性分类器,而且性能相当。区别在于:LR的解是受数据本身分布影响的,而SVM的解不受数据分布的影响; LR的输出具有自然的概率意义,而SVM的输出不具有概率意义; SVM依赖数据表达的距离测度,所以在建模前需要对数据...原创 2020-03-05 13:34:21 · 286 阅读 · 0 评论 -
常用分类算法的优缺点
常用分类算法的优缺点?算法 优点 缺点 Bayes 贝叶斯分类法 1)所需估计的参数少,对于缺失数据不敏感。2)有着坚实的数学基础,以及稳定的分类效率。 1)假设属性之间相互独立,这往往并不成立。(喜欢吃番茄、鸡蛋,却不喜欢吃番茄炒蛋)。2)需要知道先验概率。3)分类决策存在错误率。 Decision Tree决策树 1)不需要任何领域知识或参数假设。2...原创 2020-03-05 13:32:49 · 598 阅读 · 0 评论 -
分类网络与回归的区别
当照片中包含气球时,输出1,否则输出0。此步骤通常称为分类任务(categorization task)。在这种情况下,我们进行的通常是一个结果为yes or no的训练。但事实上,监督学习也可以用于输出一组值,而不仅仅是0或1。例如,我们可以训练一个网络,用它来输出一张图片上有气球的概率,那么在这种情况下,输出值就是0到1之间的任意值。这些任务我们称之为回归。分类任务的模型...原创 2020-03-05 13:30:24 · 1184 阅读 · 0 评论 -
聚类算法
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。聚类算法的选择取决于数据的类型、聚类的目的。主要的聚类算法可以划分为如下几类:划分方法 层次方法 基于密度的方法 基于网格的方法 基于模型的方法四种常用聚类...原创 2020-03-05 13:18:39 · 698 阅读 · 0 评论 -
降低维度算法
降维则是为了缓解维数灾难的一个重要方法,就是通过某种数学变换将原始高维属性空间转变为一个低维“子空间”。其基于的假设就是,虽然人们平时观测到的数据样本虽然是高维的,但是实际上真正与学习任务相关的是个低维度的分布。从而通过最主要的几个特征维度就可以实现对数据的描述,对于后续的分类很有帮助。降低维度的算法可以解决过拟合的问题。降低维度的算法主要有:主成分分析法PCA 线性判别法L...原创 2020-03-05 13:14:51 · 4035 阅读 · 0 评论 -
常见的loss function
什么是损失函数?损失函数(Loss function)又叫做误差函数,用来衡量算法的运行情况,估量模型的预测值 与真实值 的不一致程度,是一个非负实值函数,通常使用 来表示,损失函数越小,模型的鲁棒性就越好。 损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。2.11.2 常见的损失函数机器学习通过对算法中的目标函数进行不断求解优化,得到最终想要的结果。分类和回归问题中,...原创 2020-03-05 13:07:48 · 1022 阅读 · 0 评论 -
L1与L2分别服从什么分布?
L1是拉普拉斯分布,L2是高斯分布。正则化是一种回归的形式,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。也就是说,正则化可以在学习过程中降低模型复杂度和不稳定程度,从而避免过拟合的危险。一、数学基础1. 范数范数是衡量某个向量空间(或矩阵)中的每个向量以长度或大小。范数的一般化定义:对实数p>=1, 范数定义如下:...转载 2020-03-04 11:40:19 · 6632 阅读 · 0 评论 -
随机森林
随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。随机森林可以既可以处理属性为离散值的量,比如ID3算法,也可以处理属性为连续值的量,比如C4.5算法。...转载 2020-03-02 15:41:43 · 849 阅读 · 0 评论 -
类别不平衡
类别不平衡产生原因?类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数目差别很大的情况。产生原因:通常分类学习算法都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目差别很大,则会影响学习结果,测试结果变差。例如二分类问题中有998个反例,正例有2个,那学习方法只需返回一个永远将新样本预测为反例的分类器,就能达到99.8%的精度;然而这样的分类...转载 2020-03-02 13:23:01 · 921 阅读 · 0 评论 -
机器学习与深度学习的区别
机器学习:利用计算机、概率论、统计学等知识,输入数据,让计算机学会新知识。机器学习的过程,就是通过训练数据寻找目标函数。深度学习是机器学习的一种,现在深度学习比较火爆。在传统机器学习中,手工设计特征对学习效果很重要,但是特征工程非常繁琐。而深度学习能够从大数据中自动学习特征,这也是深度学习在大数据时代受欢迎的一大原因。机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对...转载 2020-03-02 13:08:01 · 4018 阅读 · 0 评论 -
权重偏差初始化的各种方法
全都初始化为 0偏差初始化陷阱: 都初始化为 0。产生陷阱原因:因为并不知道在训练神经网络中每一个权重最后的值,但是如果进行了恰当的数据归一化后,我们可以有理由认为有一半的权重是正的,另一半是负的。令所有权重都初始化为 0,如果神经网络计算出来的输出值是一样的,神经网络在进行反向传播算法计算出来的梯度值也一样,并且参数更新值也一样。更一般地说,如果权重初始化为同一个值,网络就是对称的。...原创 2020-03-02 13:00:54 · 2040 阅读 · 0 评论 -
为什么需要非线性激活函数
为什么需要非线性激活函数?为什么需要激活函数?激活函数对模型学习、理解非常复杂和非线性的函数具有重要作用。 激活函数可以引入非线性因素。如果不使用激活函数,则输出信号仅是一个简单的线性函数。线性函数一个一级多项式,线性方程的复杂度有限,从数据中学习复杂函数映射的能力很小。没有激活函数,神经网络将无法学习和模拟其他复杂类型的数据,例如图像、视频、音频、语音等。 激活函数可以把当前特征空间...原创 2020-03-02 12:54:03 · 3826 阅读 · 0 评论 -
如何选择合适的激活函数?
如何选择合适的激活函数?https://mp.youkuaiyun.com/console/editor/html/104602263(1)通常来说,不能把各种激活函数串起来在一个网络中使用。(2)如果使用ReLU,那么一定要小心设置学习率(learning rate),并且要注意不要让网络中出现很多死亡神经元。如果死亡神经元过多的问题不好解决,可以试试Leaky ReLU、PReLU、或者Max...转载 2020-03-01 22:59:24 · 727 阅读 · 0 评论 -
常见的激活函数
什么是激活函数 在神经网络中,我们经常可以看到对于某一个隐藏层的节点,该节点的激活值计算一般分为两步: (1)输入该节点的值为x1,x2x1,x2时,在进入这个隐藏节点后,会先进行一个线性变换,计算出值z[1]=w1x1+w2x2+b[1]=W[1]x+b[1]z[1]=w1x1+w2x2+b[1]=W[1]x+b[1],上标11表示第11层隐藏层。 (2)再进行一...转载 2020-03-01 22:58:19 · 1321 阅读 · 0 评论 -
Batch_size的选择
首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning )的形式,这样做至少有 2 个好处:其一,由全数据集确定的方向能够更好地代表样本总体,从而更准确地朝向极值所在的方向。其二,由于不同权重的梯度值差别巨大,因此选取一个全局的学习率很困难。 Full Batch Lea...转载 2020-03-01 22:40:11 · 821 阅读 · 0 评论 -
Dropout的正则化原理
Dropout的正则化原理1、dropout如何工作典型的神经网络其训练流程是将输入通过网络进行正向传导,然后将误差进行反向传播。Dropout就是针对这一过程之中,随机地删除隐藏层的部分单元,进行上述过程。步骤如下:随机删除网络中的一些隐藏神经元,保持输入输出神经元不变将输入通过修改后的网络进行前向传播,然后将误差通过修改后的网络进行反向传播对于另外一批的训练样本,重复上述操作训练...转载 2020-03-01 22:33:57 · 912 阅读 · 0 评论 -
各种梯度下降法的优缺点
一、梯度法思想梯度法思想的三要素:出发点、下降方向、下降步长。机器学习中常用的权重更新表达式为:,这里的λ就是学习率,本文从这个式子出发来把机器学习中的各种“梯度”下降法阐释清楚。梯度方向是,步长设为常数Δ,这时就会发现,如果用在梯度较大的时候,离最优解比较远,W的更新比较快;然而到了梯度较小的时候,也就是较靠近最优解的时候,W的更新竟然也保持着跟原来一样的速率,这样会导致...转载 2020-03-01 22:28:49 · 15857 阅读 · 0 评论 -
先验概率和后验概率
先验概率:根据以往经验和分析得到的概率;后验概率:事情已经发生,这件事情的发生是由某个原因引起的可能性的大小。(种果因概率,即在一个结果已经发生的条件下,可能是其中某一个原因造成的概率有多大。)先验概率分布,即关于某个变量 p 的概率分布p(θ); 后验概率是关于参数 θ 在给定的证据信息 X 下的概率: p(θ|x) 。后验概率定义如下:p(θ|x)=p(x|θ)p(θ)...转载 2020-03-01 22:18:30 · 924 阅读 · 0 评论 -
GBDT的原理
gbdt全称梯度下降树,可以用于分类,可以用于回归,也可以筛选特征。原理gbdt 是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。gbdt通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单,并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提...原创 2020-03-01 22:06:34 · 2698 阅读 · 0 评论 -
经验误差与泛化误差
误差(error):一般地,我们把学习器的实际预测输出与样本的真是输出之间的差异称为“误差”经验误差(empirical error):也叫训练误差(training error)。模型在训练集上的误差。泛化误差(generalization error):模型在新样本集(测试集)上的误差称为“泛化误差”。...原创 2020-01-23 12:11:24 · 1935 阅读 · 0 评论 -
为什么用ROC与AUC评价分类器
模型有很多评估方法,为什么还要使用ROC和AUC呢? 因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化。ROC全称是“受试者工作特征”(Receiver Operating Characteristic)。ROC曲线的面积就是AUC(A...原创 2020-01-23 12:08:42 · 816 阅读 · 1 评论 -
模型评估常用指标
模型评估常用方法?一般情况来说,单一评分标准无法完全评估一个机器学习模型。只用good和bad偏离真实场景去评估某个模型,都是一种欠妥的评估方式。下面介绍常用的分类模型和回归模型评估方法。分类模型常用评估方法:指标 描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics import precision_s...原创 2020-01-23 12:06:50 · 942 阅读 · 0 评论 -
LDA
线性判别分析(LDA)思想总结线性判别分析(Linear Discriminant Analysis,LDA)是一种经典的降维方法。和PCA不考虑样本类别输出的无监督降维技术不同,LDA是一种监督学习的降维技术,数据集的每个样本有类别输出。LDA分类思想简单总结如下:多维空间中,数据处理分类问题较为复杂,LDA算法将多维空间中的数据投影到一条直线上,将d维数据转化成1维数据进行处理...原创 2020-01-23 12:04:58 · 431 阅读 · 0 评论 -
LDA和PCA的区别
异同点 LDA PCA 相同点 1. 两者均可以对数据进行降维;2. 两者在降维时均使用了矩阵特征分解的思想;3. 两者都假设数据符合高斯分布; 不同点 有监督的降维方法 无监督的降维方法 降维最多降到k-1维 降维多少没有限制 可以用于降维,还可以用于分类 只用于降维 选择分类性能最好的投影方向...原创 2020-01-23 12:03:32 · 947 阅读 · 1 评论 -
PCA
主成分分析(PCA)思想总结 PCA就是将高维的数据通过线性变换投影到低维空间上去。 投影思想:找出最能够代表原始数据的投影方法。被PCA降掉的那些维度只能是那些噪声或是冗余的数据。 去冗余:去除可以被其他向量代表的线性相关向量,这部分信息量是多余的。 去噪声,去除较小特征值对应的特征向量,特征值的大小反映了变换后在特征向量方向上变换的幅度,幅度越大,...原创 2020-01-23 11:59:45 · 791 阅读 · 0 评论 -
产生维数灾难的原理,如何避免这个问题
产生维数灾难的原理,如何避免这个问题?降维的必要性:多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。 高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。 过多的变量,对查找规律造成冗余麻烦。 仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反映数据某一方面特征...原创 2020-01-23 11:57:28 · 2165 阅读 · 0 评论 -
如何解决欠拟合与过拟合
如何解决欠拟合:添加其他特征项。组合、泛化、相关性、上下文特征、平台特征等特征是特征添加的重要手段,有时候特征项不够会导致模型欠拟合。 添加多项式特征。例如将线性模型添加二次项或三次项使模型泛化能力更强。例如,FM模型、FFM模型,其实就是线性模型,增加了二阶多项式,保证了模型一定的拟合程度。 可以增加模型的复杂程度。 减小正则化系数。正则化的目的是用来防止过拟合的,但是现在模型出现了欠...原创 2020-01-23 11:56:25 · 336 阅读 · 0 评论 -
正确率能很好地评估分类算法吗
不同算法有不同特点,在不同数据集上有不同的表现效果,根据特定的任务选择不同的算法。如何评价分类算法的好坏,要做具体任务具体分析。对于决策树,主要用正确率去评估,但是其他算法,只用正确率能很好的评估吗? 答案是否定的。正确率确实是一个很直观很好的评价指标,但是有时候正确率高并不能完全代表一个算法就好。比如对某个地区进行地震预测,地震分类属性分为0:不发生地震、1发生...原创 2020-01-23 11:52:33 · 520 阅读 · 0 评论