
经典机器学习
smartcat2010
这个作者很懒,什么都没留下…
展开
-
机器学习课程笔记
随机梯度下降(SGD)的原理:对L(w)进行一阶泰勒展开,w[t]是当前自变量值:L(w[t]) + L(w[t])' * (w[t+1]-w[t])如何让右边的最小化?答:L(w[t])是常量定值,L(w[t])是向量(也是常量定值),w[t+1]-w[t]是向量,两个向量相乘如何最小化:当两个向量方向相反时,乘积最小化;因此"w[t+1]-w[t]=-L(w[t])*学习率" 时,乘积最小化,等价于L(w)近似最小化;牛顿法:对L(w)做二阶泰勒展开,有w的二次项,可以直接求闭.原创 2020-07-31 20:16:23 · 189 阅读 · 1 评论 -
CRF
有讲解有代码例子:CRF 将输出层面的关联分离了出来Softmax将序列标注看成是 n 个 k分类问题,CRF将序列标注看成是 1 个 k^n分类问题打分函数取softmax就得到概率计算归一化因子(所有路径的总概率),预测Viterbi, 都是用的动态规划。讲解Tensorflow里的LSTM+CRF实现:https://blog.youkuaiyun.com/u011...转载 2019-03-02 18:59:03 · 221 阅读 · 0 评论 -
RankNet,LambdaRank,LambdaMART详细解释
RankNet与LambdaRankSij=1表示i应该排在j前面(i和Query得相关性,比j和Query得相关性更大)横轴t是;纵轴C是损失函数;样本是2个Query-Doc Pair;Label是二值0/1, 表示是否比更相关;机器学习排序算法:RankNet to LambdaRank to LambdaMART所以对于而言,总是小于0的,越小,C越大,梯...转载 2019-02-26 22:28:28 · 1488 阅读 · 0 评论 -
过拟合和欠拟合应对方法大全
过拟合:原因:1. 模型太复杂,训练数据量太少(模型很好的记住了所有的训练样本,输入非训练样本统统都看运气)2. 训练集和测试集样本分布不一致;3. 训练集的噪音过大,导致模型只注意学习噪音了,忽略了真正有用的特征;4. 训练迭代次数过多,导致模型学习了噪音和无用特征;解决方法:1. 减小模型复杂度,减小模型参数量; 1.1 减少神经网络的宽度、深度; ...原创 2019-09-09 21:01:43 · 419 阅读 · 0 评论 -
防止过拟合的处理方法
原文地址:一只鸟的天空,http://blog.youkuaiyun.com/heyongluoyao8/article/details/49429629防止过拟合的处理方法过拟合 我们都知道,在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前已产生的数据可以...转载 2016-12-19 20:11:12 · 610 阅读 · 0 评论 -
熵,KL散度(相对熵),交叉熵
信息量:-lg(p)I(), 一个事件发生的概率越大,则它发生时所携带的信息量就越小;熵: -p*lg(p)对一个事件,,...,所有可能的发生结果的信息量的期望E(I(X)),或者不确定性程度的期望;KL散度(相对熵): (注意前面没有负号)==- H(p)用来度量两个分布p(真实分布),q(假设分布)之间的差异(严格意义上不是距离,因为不满足交换...原创 2019-09-06 21:02:41 · 425 阅读 · 0 评论 -
LDA要点个人总结
LDA是带有隐变量的生成模型,狄利克雷分布的参数和是生成模型的参数,所有文章的所有词w们是观测值X,每篇文章的主题分布和每个主题的词分布是隐变量。LDA贝叶斯网络的那张经典图的解释:每个主题的词分布,全局只采样一次,之后就固定住了;同理每篇文章的主题分布也只采样一次;生成一个词的时候,先根据主题分布采样得到该词的主题,再根据该主题的词分布采样得到该词;词分布和主题分布的先验分布(2个都是狄...原创 2019-08-31 17:22:47 · 327 阅读 · 0 评论 -
隐马尔可夫模型(HMM)
三大基本问题:1. 概率计算问题:已知模型参数=(,A,B)和观测序列O,求P(O|);2. 学习问题:已知O,求最优的模型参数,使得P(O|)最大;3. 预测问题(decode):已知模型参数和观测序列O,求使得P(I | O,)最大的状态序列I1.概率计算问题:前向or后向算法如果直接枚举所有I,时间复杂度是O(T * N^T),(N是状态总数,T是序列长度),太...原创 2019-09-06 16:14:03 · 175 阅读 · 0 评论 -
朴素贝叶斯的2种模型
多项式模型:(以词为粒度,目标文档中没出现的词不参与后验概率计算)先验概率P(c)= 类c下单词总数 / 整个训练样本的单词总数类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1) / (类c下单词总数+|V|)P(yes | d)=P(yes)×P(Chinese|yes) ×P(Japan|yes) ×P(Tokyo|yes)伯努利模型:(以文档为...原创 2019-09-05 20:58:49 · 247 阅读 · 0 评论 -
从极大似然估计到EM算法
极大似然估计:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“样本已知,模型已定,参数未知”。推导:要求的是argmax_P(|X), 根据贝叶斯公式,等于P(X|)P() / P(X), 分母与无关可以消去,等于P(X|)P(); P()这个先验概率,可以假设对所有都相同(其实不一定是啊...原创 2019-09-05 15:58:16 · 210 阅读 · 0 评论 -
KMeans原理和密度聚类
KMeans聚类:认为每个聚类都是以聚类中心为均值,方差在各维度相同,且每个聚类的方差也相同,的高斯分布("半径"相等的球形);给定K,目标是找到K个聚类中心,使得所有样本点的高斯概率之积最大,取log之后变成所有样本距离自己聚类中心的平方之和最小;初始聚类中心的选择:如KMeans++,依次选择聚类中心时,每次选的点距离其他聚类中心的距离越大,被选中做聚类中心的概率就越大;K的个...原创 2019-09-04 17:26:04 · 977 阅读 · 0 评论 -
PCA和LDA
PCA:把样本点投影到新的坐标系里,使得在这几个维度上的投影值,分散得开(也就是方差大);步骤:1. 中心化 (所有样本,每个维度都减去该维度得均值)2. 求样本协方差矩阵 (因为各个维度得均值都等于0,所以可以把(x[i]-u[i])化简为x[i] )3. 求该协方差矩阵的所有特征值和对应的特征向量4. 取最大的k个特征值对应的特征向量们,就是该样本集的主成分们;5....原创 2019-09-04 20:06:33 · 180 阅读 · 0 评论 -
线性回归,Logistic回归,Softmax回归的公式推导
线性回归:原理:y[i] =, 根据中心极限定理(由很多因素影响的变量,倾向于服从高斯分布),服从高斯分布,p(|,x)式子写出来,再把式子里面的替换成(y[i]-x[i]),p(|,x)和p(y[i]|,x)是等价的,所以p(y[i]|,x)也服从自变量是(y[i]-x[i])的高斯分布;目标是使得似然函数最大,即所有样本i的p(y[i]|,x)连乘最大,高斯分布们...原创 2019-09-03 21:32:23 · 600 阅读 · 0 评论 -
GBDT & xgboost
xgboost,GBDT在广告中的应用:把用户和广告提出特征来,做组合,例如:男性&IT类, 统计这个类型下的点击率;来一个新样本,对应在这个特征上的点击率,作为一个特征值; 所有特征值就是GBDT输入特征向量;GBDT的目标:最小化平方误差损失函数L=残差版本:把拆分成, L转化为: ;即每个弱分类器只需要拟合残差即可;梯度下降版本:视为自变量,L视为因变量,所...原创 2019-09-02 16:29:32 · 211 阅读 · 0 评论 -
多分类和二分类的关系
1 VS Rest, 1 VS 1, DAG法:1 VS Rest : 训练K个分类器,每个分类器有1类做正例其余K-1类做负例;预测阶段,取正例概率最大的那个分类器的结果即可;优点:分类器就K个,个数少;缺点:正负样本数量不平衡,影响分类效果。1 VS 1 : 训练K(K-1)/2个分类器,每个分类器有1类做正例有1类做负例;预测阶段,给分成正例的类别做投票,票数最多的类别获胜;优点:正...原创 2019-08-31 11:16:09 · 2408 阅读 · 0 评论 -
样本不均衡问题
例如:正例样本990个,负例样本10个,则分类器全分为正,也有99%的Accuracy。解决方式:1. 降采样:减少数量较多那一类样本的数量; 随机降采样; 先对该类聚类,每个类里选一些代表加进训练集; EasyEnsemble:通过多次从多数类样本有放回的随机抽取一部分样本生成多个子数据集,将每个子集与少数类数据联合起来进行训练生成多个模型,然后集合多个模型...原创 2019-09-09 16:05:11 · 442 阅读 · 0 评论