
数据挖掘
峰峰jack
这个作者很懒,什么都没留下…
展开
-
《统计学习方法》笔记(1):重要概念
如何避免”过拟合”?避免“过拟合”的方法主要有正则化和交叉验证两种方法。正则化是结构风险最小化的实现,由于存在正则化项(表征模型复杂度),可以有效避免生成过于复杂的模型。正则化可以取不同形式,例如回归问题中,损失函数是平方损失,正则化项是参数向量的二范数。原创 2016-03-29 17:28:16 · 1182 阅读 · 0 评论 -
《统计学习方法》笔记(9):EM算法和隐马尔科夫模型
EM也称期望极大算法(Expectation Maximization),是一种用来对含有隐含变量的概率模型进行极大似然估计的迭代算法。该算法可应用于隐马尔科夫模型的参数估计。三硬币模型:A、B、C三枚硬币,这些硬币投出正面的概率分别为π、p、q。进行如下硬币实验,先投硬币A,如果为正面则投硬币B,如果为反面则投硬币C。最终出现的正面则记为1,出现反面则记为0;独立的重复n次实验(取n=10),出现的结果如下:{1,1,0,1,0,1,0,1,1}假设只能观测到投掷硬币的结果,无法观测其过程,请估计三个硬币原创 2016-04-12 18:58:21 · 3710 阅读 · 0 评论 -
《统计学习方法》笔记(7):支持向量机
支持向量机是采用最优分离超平面将样本分为不同类别的二分类模型。其中的关键词是:最优分离超平面(不同于感知机中的“分离超平面”)、二分类。同时注意理解与最分离超平面相关的“函数间隔”、“几何间隔”概念。原创 2016-04-08 13:44:12 · 1098 阅读 · 0 评论 -
《统计学习方法》笔记(6):逻辑斯谛回归&最大熵模型
最大熵和决策树,两个模型中关于熵的定义完全一样,均用来表征模型的有序程度。熵值越大,越是无序。但两个模型其实并不矛盾,理由如下:1)二者应用的前提不同。对于最大熵模型而言,在所有满足约束条件的模型中,如果没有其他的参考信息,则选用熵最大的模型;而决策树模型中,由于提供了特征参量这样的额外参考信息,因此不能直接应用最大熵原理。2)决策树并没有使用最小熵模型。我们都知道,完全生长决策树的熵是最小的,然而却常常不是最好的模型(容易“过拟合”),经过剪枝后的决策树反而能够反映真实数据分布。如果说树的分裂意味着熵原创 2016-04-08 13:41:01 · 1352 阅读 · 0 评论 -
Kaggle(2):验证和过分拟合
过分拟合(overfitting)的直接结果是:对于训练集样本数据的交叉验证精度很高,但是用在实际测试集数据上,预测精度要低许多。有时候为了使模型对实际(或测试)样本具有更高的预测精度,要适当降低模型在训练样本集上的预测准确度,避免由于过拟合所造成的适应性降低问题。原创 2016-03-10 23:45:32 · 1630 阅读 · 0 评论 -
Kaggle(1):数据挖掘的基本流程
我觉得做任何事情,一定要有章法。对于学习类的事情,就是要有框架。第一次打Kaggle比赛,我的一个重要收获就是初步搞清楚了打这类比赛的框架。可以分为以下六步:理解问题、分析问题、算法选择、结果评价、算法调优、提交和总结。要想很好的完成比赛,这六步缺一不可。1)理解问题 也就是认真读题,在这一步,最重要的是有耐心。不要想着多么迅速的把这一步搞定,最终的目的是要把问题理解清楚,包括:要解决原创 2016-03-09 23:30:42 · 2144 阅读 · 0 评论 -
《统计学习方法》笔记(4):朴素贝叶斯
朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类算法;该算法基于联合概率分布求取条件概率,是典型的生成算法。本文结合我自己的理解,从基本原理、应用场景、优点和缺点等四个方面对朴素贝叶斯算法进行分析。原创 2016-04-04 16:18:40 · 1110 阅读 · 0 评论 -
《统计学习方法》笔记(5):决策树
决策树是一种基本的分类与回归方法,可以将其理解为一连串的if-then规则集合。构建一棵决策树一般要经过三个步骤:特征参量的选择、决策树的生成以及决策树的剪枝。主要的决策树算法有ID3、C4.5和CART算法,这三个算法的主要不同点在于三个算法用来判断树分裂的指标各不相同,ID3采用信息增益,C4.5采用信息增益比,而CART算法采用Gini指数。原创 2016-04-04 16:20:32 · 1451 阅读 · 0 评论 -
《统计学习方法》笔记(3):k近邻
k近邻算法对测试样本进行分类的一般过程如下:1)根据给定的k值,搜索与测试样本距离最近的k个训练样本;2)统计k个样本对应的每种分类数量;3)根据每种分类的数量投票决定样本点所属分类,票数多者得。例如:对于二分类,采用k=5的k近邻算法进行分类:距离样本点最近的5个点中,属于类0的样本数量为2,属于类1的样本数量为3,最终判定样本点属于类1。原创 2016-03-31 13:13:41 · 795 阅读 · 0 评论 -
《统计学习方法》笔记(2):感知机
为什么要使用“对偶”?因为对偶形式简化了迭代和计算过程。对比问题5和问题4中的算法推导,“对偶形式”的迭代式更加简明,迭代过程中只需要做简单的加减法即可,而无需像原始形式一样实时计算ηxiyi。原创 2016-03-30 17:22:12 · 793 阅读 · 0 评论 -
《统计学习方法》笔记(8):AdaBoost算法
AdaBoost是最有代表性的提升算法之一。其基本思想可以表述为:多个专家的综合判断,要优于任意一个专家的判断。原创 2016-04-09 14:17:18 · 1701 阅读 · 0 评论