
统计学习方法(李航)学习笔记
J-JunLiang
一个热爱挖掘的数据从业者,勤学好问、动手达人,公仔厂的一位码农,期待与大家一起交流探讨机器学习相关内容~
展开
-
《统计学习方法(李航)》决策树学习方法 学习总结
作者:jliang https://blog.youkuaiyun.com/jliang3 1.重点归纳 1)特征选择依据 ID3:信息增益最大: C4.5:信息增益比最大: ,n为特征A的取值个数,Di为特征A第i个取值的集合 CART:基尼指数/平方误差最小 对于特征A的基尼指数: 基尼指数: 平方误差: 2)损失函数 ID3/C4.5:(各结点的熵) CAR...原创 2018-12-23 21:45:32 · 974 阅读 · 0 评论 -
《统计学习方法(李航)》统计学习方法概论 学习总结
作者:jliang https://blog.youkuaiyun.com/jliang3 1.重点归纳1)统计学三要素(1)模型:就是所要学习的条件概率分布或决策函数(2)策略:从假设空间中选取最优模型,需要考虑按照什么样的准则学习或选择最优的模型(3)算法:求解最优化问题的算法2)损失函数(loss function)或代价函数(cost function)用来度量预...原创 2018-12-23 20:57:11 · 742 阅读 · 0 评论 -
《统计学习方法(李航)》感知机学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang31.重点归纳1)感知机是二分类的线性分类模型2)经验风险函数/损失函数, M为误分类点3)学习策略, M为误分类点4)感知机是误分类驱动的,具体采用随机梯度下降法求解。5)感知机存在许多解,这些解依赖于初值的选择,也依赖于迭代过程中误分类点的选择顺序。2.感知机模型1)感知机是二分类的线...原创 2018-12-23 21:03:14 · 356 阅读 · 0 评论 -
《统计学习方法(李航)》k近邻 学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳 1)k近邻是一种基本分类与回归方法,不具有显式的学习过程。2)模型由三个基本要素决定:距离度量、k值选择和分类决策规则。3)k近邻法最简单的实现方法是线性扫描,当训练集很大时,计算非常耗时。为提高搜索效率,可以使用特殊的结构(kd树)存储训练数据,以减少计算距离的次数。2.k近邻...原创 2018-12-23 21:08:59 · 381 阅读 · 0 评论 -
《统计学习方法(李航)》朴素贝叶斯学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳1)朴素贝叶斯(naive Bayes)法只能用于分类,先基于特征条件独立假设学习输入/输出的联合概率分布,然后对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。2)损失函数:0-1损失函数3)目标函数:后验概率最大化4)属于生成式模型5)联合概率分布:6)贝叶斯...原创 2018-12-23 21:16:34 · 584 阅读 · 0 评论 -
《统计学习方法(李航)》逻辑斯蒂回归与最大熵模型学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳1)线性回归(1)是确定两种或以上变量间相互依赖的定量关系的一种统计分析方法。(2)模型:y=wx+b(3)误差函数:(4)常见求解方法最小二乘法 梯度下降法 其它算法:牛顿法或拟牛顿法(5)最小二乘与梯度下降法关系最小二乘法看作优化方法的话,那么梯度下降法是求解...原创 2018-12-23 21:49:39 · 475 阅读 · 0 评论 -
《统计学习方法(李航)》支持向量机学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.重点归纳1)支持向量机(SVM)是一种二分类模型 (1)它的基本模型定义在特征空间上的间隔最大化的线性分类器,间隔最大使它有别于感知机(感知机的损失函数只判断是否正确分类)。(2)SVM还包含核技巧,使它称为实质上的非线性分类器。(3)学习策略:间隔最大化,最终可转化为一个凸二次规划问题进...原创 2018-12-23 22:11:31 · 460 阅读 · 0 评论 -
《统计学习方法(李航)》集成学习(内容有拓展)学习总结
作者:jlianghttps://blog.youkuaiyun.com/jliang3 1.自助法(Bootstrap)1)自助法是一种有放回的抽样方法。核心思想是从原样本集有放回抽取N个子集,训练N个分类器,进行集成。2)Bagging和Boosting都是Bootstraping思想的应用。2. 袋装法(Bagging)1)特点:各个弱学习器之间没有依赖关系,可以并行拟合...原创 2018-12-23 22:22:47 · 596 阅读 · 0 评论 -
聚类方法 学习总结
1.重点归纳1)聚类的核心概念是相似度(similarity)或距离(distance),有多种相似度或距离的定义。因为相似度直接影响聚类的结果,所以其选择是聚类的根本问题。(1)闵可夫斯基距离(Minkowski distince),p=2时为欧氏距离,p=1时为曼哈顿距离。(2)马哈拉诺比斯距离(马氏距离)(3)相关系数(4)余弦相似度2)类与类之间的距离(1...原创 2019-07-03 16:11:21 · 3777 阅读 · 0 评论