
机器学习
纸上得来终觉浅~
周围的人都比你厉害,你才会慢慢变强
展开
-
讲的特别好!!!EM算法与混合高斯模型(Gaussian mixture model, GMM)
https://blog.youkuaiyun.com/lin_limin/article/details/81048411转载 2020-04-28 16:58:27 · 402 阅读 · 0 评论 -
Em算法通用步骤
直观理解EM算法求似然函数最大值:原创 2020-02-15 17:04:19 · 587 阅读 · 0 评论 -
viterbi算法
已知hmm参数,观察序列,求最可能的状态序列,可用维特比算法。viterbi算法其实就是多步骤每步多选择模型的最优选择问题,其在每一步的所有选择都保存了前续所有步骤到当前步骤当前选择的最小总代价(或者最大价值)以及当前代价的情况下前继步骤的选择。依次计算完所有步骤后,通过回溯的方法找到最优选择路径。符合这个模型的都可以用viterbi算法解决。https://blog.youkuaiyun.com/z...转载 2019-11-25 22:46:26 · 216 阅读 · 0 评论 -
EM算法推导
(1)初始化参数;(2)找一个Q函数,用初始化参数得到Q;(3)已知Q,最大化似然函数,更新参数;迭代(2)(3)步骤。https://blog.youkuaiyun.com/zouxy09/article/details/8537620q函数推导及BW算法:https://blog.youkuaiyun.com/firparks/article/details/54934112...转载 2019-11-25 16:46:44 · 163 阅读 · 0 评论 -
HMM前向后向算法
https://www.cnblogs.com/pinard/p/6955871.html转载 2019-11-25 15:06:21 · 187 阅读 · 0 评论 -
高斯混合模型(GMM)和EM算法
https://blog.youkuaiyun.com/weixin_38206214/article/details/81064625转载 2019-11-18 22:32:56 · 216 阅读 · 0 评论 -
时间序列模型ARIMA -- 唐宇迪
参见唐宇迪机器学习视频:https://www.bilibili.com/video/av54116326/?p=168原创 2019-10-15 23:03:32 · 704 阅读 · 1 评论 -
各种库的下载地址
https://www.lfd.uci.edu/~gohlke/pythonlibs/原创 2019-10-15 22:34:33 · 305 阅读 · 0 评论 -
常见聚类算法
1. K-Means(K均值)聚类算法步骤:(1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。(2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。(3) 计算每一类中中心点作为新的中心点。(4) 重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随...转载 2019-10-15 21:26:32 · 1224 阅读 · 0 评论 -
机器学习概述
原创 2019-10-15 21:12:09 · 142 阅读 · 0 评论 -
贝叶斯网络
1、概念贝叶斯网络(Bayesian network),或称有向无环图模型,是一种概率图模型。贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量、未知参数等。认为有因果关系(或非条件独立)的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)”,两节点就会产生一个条件...转载 2019-09-21 21:05:24 · 6689 阅读 · 0 评论 -
EM算法
一、EM算法介绍我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。(最大似然估计:利用已知的样本结果,反推最有可能导致这样结果的一组参数)但是在一些情况下,我们得到的观察数据有未观察到的隐含数据,此时我们未知的有隐含数据和模型参数,因而无法直接用极大化对数似然函数得到模型分布的参数。用EM算法可以解决。EM算法是一种迭代算法,用于含有隐变量的概...转载 2019-09-22 12:34:53 · 11583 阅读 · 3 评论 -
常见算法面试题
数据库中的主键、索引和外键(数据分析岗经常问)决策树ID3和C4.5的差别?各自优点?Boost算法CART(回归树用平方误差最小化准则,分类树用基尼指数最小化准则)GBDT与随机森林算法的原理以及区别。优化算法中常遇到的KKT条件?作用是?最近邻算法KNN(分类与回归)L1和L2函数?L1和L2正则项的比较,如何解决 L1 求导困难?L1正则为何可把系数压缩成0,说明坐标下降法的...转载 2019-09-22 14:14:26 · 193 阅读 · 0 评论 -
集成算法 xgboost
1、集成算法xgboost -- 梯度提升树该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。在原有的模型基础上,不断加...原创 2019-09-22 19:36:52 · 371 阅读 · 0 评论 -
机器学习常用十大算法总结
一、线性回归1、定义2、损失函数https://blog.youkuaiyun.com/qq_32172681/article/details/98056941二、逻辑回归LR1、定义2、为什么使用sigmoidhttps://blog.youkuaiyun.com/qq_32172681/article/details/1010806283、极大似然估计(估计参数)https://b...原创 2019-09-22 21:34:08 · 273 阅读 · 0 评论 -
KL散度
KL 散度是一种衡量两个概率分布的匹配程度的指标,两个分布差异越大,KL散度越大。定义如下:其中 p(x) 是目标分布,q(x)是去匹配的分布,如果两个分布完全匹配,那么KL 散度又叫相对熵,在信息论中,描述的是q去拟合p的产品的信息损耗。KL 散度是非对称,即 D(p||q) 不一定等于 D(q||p) 。KL 散度经常作为优化的目标。...转载 2019-09-27 12:55:45 · 1393 阅读 · 0 评论 -
sigmoid函数的求导
sigmoid的导数 = sigmoid * (1 - sigmoid)转载 2019-10-09 09:37:48 · 2101 阅读 · 0 评论 -
relu和Softplus
relu缺点:训练的时候很”脆弱”,很容易就”die”了,训练过程该函数不适应较大梯度输入,因为在参数更新以后,ReLU的神经元不会再有激活的功能,导致梯度永远都是零。例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0.如果 learning rate 很大,那么很有可能网络中的 40% 的神经元...原创 2019-10-09 10:16:28 · 2642 阅读 · 0 评论 -
维数灾难
一、定义随着维度的增加,分类器性能逐步上升,到达某点之后,其性能便逐渐下降也许分类器准确率依然无法达到要求,加入更多的特征,比如颜色、纹理的统计信息等等,如此下去,可能会得到上百个特征。那是不是我们的分类器性能会随着特征数量的增加而逐步提高呢?答案也许有些让人沮丧,事实上,当特征数量达到一定规模后,分类器的性能是在下降的。随着维度(特征数量)的增加,分类器的性能却下降了。二、...转载 2019-10-10 09:16:26 · 460 阅读 · 0 评论 -
SVM对偶问题
SVM目前被认为是最好的现成的分类器,SVM整个原理的推导过程也很是复杂啊,其中涉及到很多概念,如:凸优化问题、拉格朗日乘子法、对偶问题,slater条件、KKT条件还有复杂的SMO算法!相信有很多研究过SVM的小伙伴们为了弄懂它们也是查阅了各种资料,着实费了不少功夫!本文便针对SVM涉及到的这些复杂概念进行总结,希望为大家更好地理解SVM奠定基础。一、凸集和凸函数在讲解凸优化问题之...转载 2019-10-10 10:02:38 · 1927 阅读 · 0 评论 -
集成学习(Bagging和Boosting)
一、概念集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。集成学习在各个规模的数据集上都有很好的策略:数据集大:划分成多个小数据集,...转载 2019-08-04 16:03:06 · 2470 阅读 · 0 评论 -
半朴素贝叶斯算法
前置知识:贝叶斯公式:https://blog.youkuaiyun.com/qq_32172681/article/details/98032205朴素贝叶斯算法:https://blog.youkuaiyun.com/qq_32172681/article/details/1011122111.、半朴素贝叶斯的“半”前面说到,朴素贝叶斯(NB)的‘朴素’就体现在它假设各属性之间没有相互依赖,可以...转载 2019-09-21 18:57:09 · 2650 阅读 · 0 评论 -
朴素贝叶斯分类算法
版权声明:本文为优快云博主「JensLee」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.youkuaiyun.com/LEE18254290736/article/details/82414685贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也...转载 2019-09-21 18:08:43 · 1501 阅读 · 0 评论 -
梯度下降概念及推导过程
1、梯度我们对一个多元函数求偏导,会得到多个偏导函数。这些导函数组成的向量,就是梯度。一元函数的梯度可以理解为就是它的导数。梯度就是对一个多元函数的未知数求偏导,得到的偏导函数构成的向量就叫梯度。我们求解一元函数的时候有一种办法是对函数求导得到导函数,令导函数为零得到这个函数的解析解。那我们可以理解为求解一元函数时利用让一元函数的梯度变为0的时候,梯度所在的位置就是函数的最优解。梯度中...转载 2019-09-21 00:37:44 · 2551 阅读 · 0 评论 -
梯度提升决策树(GBDT)算法
GBDT(Gradient Boosting Decision Tree,梯度提升决策树),由名字可以看出涉及到三点:1、boosting简单讲,就是每次训练单个弱学习器时,都将上一次分错的数据权重提高一点再进行当前单个弱学习器的学习。这样越往后执行,训练出的单个弱学习器就会越在意那些容易分错(权重高)的点。当执行 M 次后,通过加权求和的方式组合成一个最终的学习器。2、Gradien...转载 2019-08-04 17:44:20 · 839 阅读 · 0 评论 -
sigmoid函数和softmax函数
一、二分类问题sigmoid函数表示为:sigmoid函数图像为:sigmoid的输入为实数,输出在0和1之间,对一定范围内的数据很敏感。二、单标签多分类问题softmax函数表示为:它的实质就是将一个K维的任意实数向量映射成另一个K维的实数向量,其中向量中的每个元素取值都介于0,1之间,并且和为1。三、多标签分类问题sigmoid一般不用来...原创 2019-07-31 17:24:28 · 2124 阅读 · 1 评论 -
随机森林(Random Forest)算法
一、原理:随机森林由Leo Breiman(2001)提出的一种分类算法,它通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取n个样本生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于独立抽取的样本。单棵树的分类...转载 2019-08-04 17:20:56 · 3071 阅读 · 0 评论 -
常见决策树算法(ID3、C4.5、CART)
一、决策树原理决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成,一般一棵决策树包含一个根节点、若干内部节点和若干叶节点。决策树的决策过程需要从决策树的根节点开始,待测数据与决策树中的特征节点进行比较,并按照比较结果选择选择下一比较分支,直到叶子节点作为最终的决策结果。内部节点:对应于一个属性测试叶节点:对应于决策结果根节点包含样本全集;每个节点包括的样本集合根据属...转载 2019-08-04 16:45:10 · 7415 阅读 · 0 评论 -
KKT条件
最优化问题分为三种情况:1、无约束问题y = f(x),直接求解即可。2、等式约束条件设目标函数为f(x),有k个等式约束条件h(x),等式约束条件有k个系数为λk,使用拉格朗日函数法求最优解。构造拉格朗日函数:对变量求偏导,可以得到k+1个方程,方程组的解就是函数极值。3、不等式约束条件设目标函数为f(x),有j个等式约束条件h(x),等式约束条件有j...原创 2019-07-31 16:19:54 · 5697 阅读 · 0 评论 -
基于特征值分解协方差矩阵实现PCA降维
感谢原文作者,博客写的非常好,我这里将我需要的部分提取出来记录一下。多变量的大数据集可以为研究提供丰富的信息,但是处理起来复杂度太高,并且其中一些数据之间具有相关性,如果将这些大量的具有相关性的数据,用少量的各自独立的数据来表示,将会降低复杂度,并且不丢失有用的信息。也就是降维。降维的算法有很多,比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。...转载 2019-07-31 14:58:59 · 1723 阅读 · 0 评论 -
K折交叉验证原理及其python实现
K折交叉验证用于模型调优,所有的数据都被用来训练,会导致过拟合,K折交叉验证可以缓解过拟合。将数据分为k组,每次从训练集中,抽取出k份中的一份数据作为验证集,剩余数据作为测试集。测试结果采用k组数据的平均值。若训练集较大,则k较小,降低训练成本,若训练集较小,则k较大,增加训练数据。如k=10,则90%的数据被训练;k=20,留一K折交叉验证,是K折交叉验证的一种特例,每次从数据集中抽...原创 2019-07-17 15:15:54 · 12494 阅读 · 0 评论 -
分类和回归的区别
其实分类和回归的本质是一样的,都是对输入做出预测,其区别在于输出的类型。分类问题:分类问题的输出是离散型变量(如: +1、-1),是一种定性输出。(预测明天天气是阴、晴还是雨)回归问题:回归问题的输出是连续型变量,是一种定量输出。(预测明天的温度是多少度)。转载地址:https://blog.youkuaiyun.com/fisherming/article/details/79646134...转载 2019-07-16 18:12:50 · 254 阅读 · 0 评论 -
先验概率、后验概率、全概率
1、先验概率即在事情发生之前事情发生的概率。是根据以往经验和分析得到的概率。比如抛硬币,我们都认为正面朝上的概率是0.5,这就是一种先验概率。2、后验概率事情已经发生了,事情发生可能有很多原因,判断事情发生时由哪个原因引起的概率。比如今天你没去学校,原因有两个,可能是生病了,也可能是自行车坏了。然后上课时老师发现你没来。计算生病了没来学校的概率和自行车坏了没来学校的概率。3、...转载 2019-08-04 19:06:50 · 1366 阅读 · 0 评论 -
贝叶斯公式
1、贝叶斯要解决的问题贝叶斯公式就是已知先验概率,估计后验概率。2、贝叶斯公式条件概率公式:全概率公式:贝叶斯公式:其中:p(w):为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率,表示某事发生了,并且它属于某一类别的概率;p(x)为全概率。有了这个后验概率,我们就可以对样本进行分类,后验概率越大...转载 2019-08-01 11:42:32 · 11653 阅读 · 2 评论 -
极大似然估计
一、极大似然估计原理利用已知的样本结果,反推最有可能导致这样结果的参数值,也就是观察哪个参数值能够使样本出现的概率为最大,即:“模型已定,参数未知”。记已知的样本集为:,似然函数:联合概率密度函数,称为相对于D的θ的似然函数,即:。如果是参数空间中能使似然函数最大的θ值,那么就是θ的极大似然估计量,即:二、极大似然估计求解过程如下:(1)写出似然函数;(...转载 2019-08-01 11:42:24 · 5098 阅读 · 0 评论 -
逻辑回归二分类任务为什么使用 sigmoid 函数?
伯努利实验 伯努利分布 二元分类 指数族函数 sigmoid 函数的推导1、伯努利实验在介绍伯努利分布之前,先介绍一个有名的实验 – 伯努利实验。在概率统计理论中,伯努利试验是一个随机实验,恰好有两种可能的结果,即 “成功” 和 “失败”,其中每次实验时成功的概率都是相同的。比如,对于一个随机变量 x,随机变量只能有两个值,一个结果是 x = 1,另一种结果是 x = 0;两种...转载 2019-09-20 21:59:06 · 5873 阅读 · 0 评论 -
拉普拉斯校准
拉普拉斯校准(平滑公式)是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。拉普拉斯校准是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。第一封只有w1,2只有w2,3只有w3,4只有w4,垃圾邮件总数+4。正常邮件总数=正常+倍数(正常÷垃圾)*4总似然:只求分子,分母不求...转载 2019-09-18 11:42:30 · 1807 阅读 · 0 评论 -
K近邻算法
版权声明:本文为优快云博主「wangmumu321」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.youkuaiyun.com/wangmumu321/article/details/785769161、KNN简介K最近邻(k-Nearest Neighbor,KNN),是一种常用于分类的算法,是有成熟理论支撑的、较为简...转载 2019-08-25 20:37:36 · 490 阅读 · 0 评论 -
概率图模型(马尔可夫模型)
一、马尔可夫过程1、马尔可夫过程一个马尔科夫过程就是指过程中的每个状态的转移只依赖于之前的n个状态,这个过程被称为1个n阶的模型,其中n是影响转移状态的数目。最简单的马尔科夫过程就是一阶过程,每一个状态的转移只依赖于其之前的那一个状态。2、马尔可夫链马尔可夫链是随机变量X1,X2,X3…的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为状态空间。设表示随机...原创 2019-08-25 17:40:42 · 8388 阅读 · 1 评论 -
用截断奇异值分解(Truncated SVD)降维
1、SVD的定义2、SVD计算举例3、SVD的一些性质 4、截断SVD截断的SVD将参数计数从u*v减少到t(u+v),如果t比min(u,v)小得多,则这一点很重要。TSVD与一般SVD不同的是它可以产生一个指定维度的分解矩阵,可以实现降维。为了压缩网络,将W对应的单个全连接层替换为两个全连接层,它们之间没有非线性。这些层中的第一层使用权矩阵...转载 2019-08-11 14:51:51 · 23453 阅读 · 3 评论