
《统计学习方法》读书笔记
文章平均质量分 87
骑猪流浪江湖
一个有追求的三本大学在读本科生,秃头中年油腻男团预备团员
展开
-
《统计学习方法》第二十一章PageRank及python实现
一、写在前面本文是《统计学习方法》第二十一章PageRank读书笔记。《方法》从第十四章起开始涉及无监督学习,而个人发现无监督学习的作用和性能相比监督学习都很有限。拿众所周知的聚类来说,在业务或者数据处理的过程中,其作用还是较为有限的,笔者对其的应用能力尚不足。因此决定对这一部分无监督学习不再续更。然而PageRank不仅在搜索引擎中得到广泛应用,还在影响力分析、文本分析等领域大放异彩,因此有必要详细了解每一处细节。本文作个人备忘用,不保证质量和延续性。二、PageRank的定义2.1 基本想法历史原创 2021-03-18 10:15:20 · 472 阅读 · 0 评论 -
《统计学习方法》第十四章聚类算法
一、写在前面本文是《统计学习方法》第十四章聚类方法读书笔记。本书第十二章是监督学习总结,第十三章是无监督学习概述,主要是了解性知识和概述,因此本博客笔记跳过了这两章(主要没啥好写的,次要我偷懒了,嘿嘿)。本文作个人备忘用,不保证质量和延续性。聚类算法种类较多,如层次聚类,密度聚类,K-means聚类,均值漂移聚类等等。《方法》中仅简要介绍了其中两种:K-means算法和层次聚类算法。二、层次聚类算法层次聚类假设类别之间存在层次结构,将样本聚到层次化的类中。层次聚类又有自上而下的聚合聚类和自下而上的分原创 2021-03-17 14:42:17 · 431 阅读 · 0 评论 -
《统计学习方法》第十章隐马尔可夫模型与python实现
一、写在前面本文是《统计学习方法》第10章隐马尔可夫模型的读书笔记。用一段百余行的Python代码实现了隐马模型观测序列的生成、前向后向算法、Baum-Welch无监督训练、维特比算法。公式与代码相互对照,循序渐进。HMM算是个特别常见的模型,在自然语言处理中有很多的应用,比如基于字符序列标注的分词和词性标注了。但我的理解仅仅停留在“前向算法”“Viterbi”等层次。这次静下心来,从头到尾将这章认真看完,与自己原有的理解做一个对照,加深理解。二、隐马尔可夫模型基本概念隐马尔可夫模型是关于时序的概率原创 2021-03-16 17:25:40 · 1154 阅读 · 2 评论 -
《统计学习方法》第八章提升方法及python实现
一、写在前面本文是《统计学习方法》第8章提升方法的笔记,整合了《机器学习实战》中的提升树Python代码。《方法》重理论,但不易理解,《实战》重实践,但缺乏理论基础,特别是AdaBoost算法的解释、提升树与加法模型的关系等。两相结合,应该能获得较为全面的知识。本文是第八章,往后翻了翻,《方法》还有十四章。路漫漫其修远兮,年轻人骑猪仔不能放弃。二、提升方法提升方法是从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后组合这些弱分类器,构成一个强分类器。大多数的提升方法都是改变训练数原创 2021-03-15 23:53:59 · 438 阅读 · 0 评论 -
《统计学习方法》第七章支持向量机
一、写在前面本文是《统计学习方法》第七章支持向量机的读书笔记,前半部分是原书中内容加上自己的理解,后半部分是python实现支持向量机的代码及注释。本笔记服务于自己备忘,不做其他用途。也希望自己能坚持下来,完成整本书的学习与记录。二、支持向量机简介支持向量机(support vector machines,SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化原创 2021-03-12 17:24:58 · 1328 阅读 · 0 评论 -
《统计学习方法》第四章——朴素贝叶斯及python实现
一、概述本文是《统计学习方法》的第四章,包含朴素贝叶斯分类器的原理与python实现。希望自己能坚持下去,完成整本书的学习二、朴素贝叶斯算法由于我们需要学习的参数为P(x,y)P(x,y)P(x,y),而P(X=x,Y=y)=P(X=x∣Y=y)P(Y=y)P(X=x,Y=y)=P(X=x|Y=y)P(Y=y)P(X=x,Y=y)=P(X=x∣Y=y)P(Y=y),其中P(X=x∣Y=y)P(X=x|Y=y)P(X=x∣Y=y)的参数是指数级的。当维度较大时,会发送维度灾难。具体地说,X和Y的组合很原创 2021-03-09 18:29:42 · 381 阅读 · 0 评论 -
《统计学习方法》第三章——k近邻法及Python实现
一、概述pass二、k近邻算法k近邻是一种基本的分类与回归方法。本文只讨论分类问题中的k近邻算法。k近邻算法的输入为实例的特征向量,对于输入的实例,可以取多类。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,K近邻法不具有显示的学习过程。k近邻实际上是利用训练集对特征空间进行划分,并作为其分类的“模型”。k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素。三、k值的选择与分析k值的选择会对k近邻算法的结果产生重大影响。k较小,容易被噪声影响,发生过原创 2021-02-28 18:28:49 · 229 阅读 · 0 评论 -
《统计学习方法》第二章——感知机及Python实现
一、概述pass二、感知机模型感知机(perceptron)是二类分类的线性分类模型,其输入为特征向量x,输出为类别,取+1,-1二值。感知机将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出训练数据进行线性划分的超平面,属于判别模型。为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。同时,感知机算法是支持向量机和神经网络的基础。2.1 感知机模型对于感知机,由输入空间到输出空间的由如原创 2021-02-28 14:28:15 · 271 阅读 · 0 评论 -
《统计学习方法》第一章 概论
文章目录统计学习的分类基本分类二级目录三级目录统计学习的分类基本分类一、监督学习二、无监督学习三、强化学习四、半监督学习与主动学习按模型分类合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入统计学习的分类基本分类二级目录三级目录统计学原创 2021-02-26 00:35:22 · 560 阅读 · 0 评论