
机器学习
文章平均质量分 82
常山赵匡胤
这个作者很懒,什么都没留下…
展开
-
《统计学习方法》第六章逻辑斯蒂回归与最大熵模型学习笔记
一、逻辑斯蒂回归模型1. 二项逻辑斯蒂回归模型二项逻辑斯蒂回归模型是如下的条件概率分布: P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=1|x)=\frac{\exp{(w \cdot x+b)}}{1+\exp(w\cdot x+b)} P(Y=0|x)=11+exp(w⋅x+b)P(Y=0|x)=\frac{1}{1+\exp(w\cdot x+b)} 注意:P(Y原创 2017-04-05 22:30:57 · 2612 阅读 · 0 评论 -
使用极大似然法对逻辑回归中的参数进行估计的数学原理
1.极大似然估计中采样产生的样本需要满足一个重要假设,所有采样的样本都是独立同分布的。 2.极大似然估计是在模型已定,参数未知的情况下,估计模型中的具体参数。 3.极大似然估计的核心是让产生所采样的样本出现的概率最大。即利用已知的样本结果信息,反推具有最大可能导致这些样本结果出现的模型的参数值。 既然事情已经发生了,为什么不让这个出现的结果的可能性最大呢?这也就是最大似然估计的核心。 求最大原创 2017-04-28 11:32:46 · 7471 阅读 · 3 评论 -
利用GBDT模型构造新特征
本文转自:http://breezedeus.github.io/2014/11/19/breezedeus-feature-mining-gbdt.html实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话:特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已转载 2017-04-14 19:59:32 · 629 阅读 · 0 评论 -
《统计学习方法》第四章朴素贝叶斯学习笔记
朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y)P(X,Y),然后求得后验概率分布P(Y|X)P(Y|X)。具体是利用训练数据学习P(X|Y)P(X|Y)和P(Y)P(Y)的估计,得到联合概率分布:P(X,Y)=P(Y)P(X|Y)P(X,Y)=P(Y)P(X|Y)。 朴素贝叶斯法的基本假设是条件独立性: P(X=x|Y=ck)==P(X(1)=x(1),⋯,X(原创 2017-04-05 11:40:49 · 971 阅读 · 0 评论 -
《统计学习方法》第五章决策树学习笔记
决策树这章相关的内容主要分为三部分:特征选择,建树,剪枝。 决策树的种类有ID3,C4.5以及CART 三种。一 特征选择1. 熵熵(entropy)的定义:是表示随机变量X不确定性的度量。原创 2017-03-31 11:44:09 · 1163 阅读 · 0 评论 -
《统计学习方法》第八章提升方法学习笔记
提升方法需要解决两个问题:一是在每一轮如何改变训练数据的权值或概率分布;二是如何将弱分类器组合成一个强分类器。对于第一个问题,AdaBoost算法是提高那些前一轮弱分类器错误分类样本的权重,而降低那些被正确分类样本的权重,这使得那些没有被正确分类的样本由于其权重的加大而受到后一轮的弱分类器的更大关注。对于第二个问题,AdaBoost采取加权多数表决的方法,即加大分类误差率小的弱分类器的权值,使其在表原创 2017-04-11 16:38:10 · 1005 阅读 · 0 评论 -
《统计学习方法》第七章支持向量机学习笔记
一、线性可分支持向量机定义:给定线性可分训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为: w∗⋅x+b∗=0w^*\cdot x+b^*=0 以及相应的分类决策函数: f(x)=sign(w∗⋅x+b∗)f(x)=sign{(w^*\cdot x+b^*)} 称为线性可分支持向量机。 SVM的分类决策函数和感知机决策函数形式很类似,但是求得的超平面不一样。原创 2017-04-06 23:14:39 · 3088 阅读 · 1 评论 -
《统计学习方法》附录C拉格朗日对偶性学习笔记
最优化问题有三种形式:(1)无约束优化问题;(2)有等式约束的优化问题;(3)有不等式约束的优化问题。这部分是解决第三种最优化问题,即有不等式约束的优化问题。一、原始问题假设f(x),ci(x),hj(x)f(x),c_i(x),h_j(x)是定义在Rn\mathbf{R}^n上的连续可微函数,称如下的最优化问题为原始问题:minx∈Rnf(x)s.t.ci(x)hj(x)≤0,=原创 2017-04-10 15:49:31 · 1329 阅读 · 0 评论 -
线性回归的损失函数与逻辑回归的损失函数
一、线性回归损失函数的两种解释线性回归的损失函数是平方损失函数,为什么使用平方的形式,参考:线性回归损失函数为什么要用平方形式,讲得很清楚。 在线性回归中,对于训练数据样本(xi,yi)(x_i,y_i),我们有如下的拟合直线: yiˆ=θ⋅xi\widehat{y_i}=\theta\cdot x_i 构建的损失函数是: C=∑i=1n(yi−yiˆ)2C=\sum\limits_{i=1原创 2017-05-02 19:32:58 · 24522 阅读 · 2 评论