
西瓜书
超超人不会飞
Talk is cheap. Show me the code
展开
-
机器学习西瓜书笔记(十)--------------降维与度量学习
目录降维与度量学习K近邻学习主成分分析(PCA)降维与度量学习样本的特征数称为维数(dimensionality),当维数非常大时,也就是现在所说的“维数灾难”,具体表现在:在高维情形下,数据样本将变得十分稀疏,因为此时要满足训练样本为“密采样”的总体样本数目是一个触不可及的天文数字,谓可远观而不可亵玩焉...训练样本的稀疏使得其代表总体分布的能力大大减弱,从而消减了学习器的泛化能力;同时当维数很高时,计算距离也变得十分复杂,甚至连计算内积都不再容易,这也是为什么支持向量机(SVM.原创 2020-07-19 11:45:57 · 582 阅读 · 0 评论 -
机器学习西瓜书笔记(九)--------------聚类
聚类算法聚类是一种经典的无监督学习方法,无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。聚类直观上来说是将相似的样本聚在一起,从而形成一个类簇(cluster)。那首先的问题是如何来度量相似性(similarity measure)呢?这便是距离度量,在生活中我们说差别小则相似,对应到多维样本,每个样本可以对应于高维空间中的一个数据点,若它们的距离原创 2020-07-19 11:43:10 · 435 阅读 · 0 评论 -
机器学习西瓜书笔记(八)--------------集成学习
目录集成学习BoostingBagging与Random Forest结合策略集成学习集成学习通过构造多个学习器来完成学习任务。集成学习的构造是先产生一组个体学习器,然后用某种策略将他们结合起来。集成中只包含同类个体学习器,这样的集成是同质的,其个体学习器称为基学习器,学习算法也称为基学习算法。集成中包含不同类的个体学习器,这样的集成是异质,其中的个体叫组件学习器或者直接称为个体学习器。集成学习的基本结构为:先产生一组个体学习器,再使用某种策略将它们结合在一起。集成模..原创 2020-07-19 11:39:27 · 424 阅读 · 0 评论 -
机器学习西瓜书笔记(七)--------------贝叶斯分类器
目录贝叶斯分类器的理论框架贝叶斯决策论极大似然法朴素贝叶斯分类器贝叶斯分类器的理论框架贝叶斯分类器的理论框架基于贝叶斯决策论(Bayesian decision theory),而贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。具体来说,若我们决策的目标是最小化分类错误率,贝叶斯最优分类器要对每个样本 x,选择能使后验概率 P( c | x )最大的类别 c 标记。.原创 2020-07-19 10:54:45 · 672 阅读 · 0 评论 -
机器学习西瓜书笔记(六)--------------支持向量机
支持向量机支持向量机是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标便是间隔最大化,因此支持向量机本身可以转化为一个凸二次规划求解的问题对于二分类学习,假设现在的数据是线性可分的,这时分类学习最基本的想法就是找到一个合适的超平面,该超平面能够将不同类别的样本分开,类似二维平面使用ax+by+c=0来表示,超平面实际上表示的就是高维的平面,如下图所示:函数间隔在超平面w'x+b=0确定的情况下,|w'x+b|能够代表点x距离超平面的远近,易..原创 2020-07-19 10:31:05 · 257 阅读 · 0 评论 -
机器学习西瓜书笔记(五)--------------神经网络
目录神经元模型感知机与多层网络 BP神经网络算法常见神经网络深度学习 神经元模型神经网路中最基本的成分是“神经元”模型,在生物神经网络中,每个神经元与其他神经元相连,当他“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元类的电位;如果某神经元的电位超过一个“阈值”,那么他就会被激活。将上述描述当成一个数学模型——M-P神经元模型,神经元接收来自n个神经元传递过来的输入信号,这些输入信号通过带权重的连接进行传输,将神经元接收到的总输入值与神经元的自身的阈值进行...原创 2020-07-19 10:02:49 · 466 阅读 · 0 评论 -
机器学习西瓜书笔记(四)--------------决策树
决策树学习是根据数据的属性采用树状结构建立的一种决策模型,可以用此模型解决分类和回归问题。常见的算法包括 ,ID3, C4.5,CART(Classification And Regression Tree)等。我们往往根据数据集来构建一棵决策树,他的一个重要任务就是为了数据中所蕴含的知识信息,并提取出一系列的规则,这些规则也就是树结构的创建过程就是机器学习的过程。决策树算法决策树算法主要是指决策树进行创建中进行树分裂(划分数据集)的时候选取最优特征的算法,他的主要目的就是要选取一个特征能够将...原创 2020-07-19 09:11:26 · 428 阅读 · 0 评论 -
机器学习西瓜书笔记(三)-----------线性模型
机器学习西瓜书笔记(三)-----------线性模型目录一、基本形式二、线性回归 三、对数几率回归四、线性判别分析五、多分类学习六、类别不平衡问题一、基本形式设定由n个属性描述的示例X = (x1; x2; x3; ...; xd),ω = (ω1; ω2;...;ωd),xi是X第i个属性的取值。线性模型尝试通过属性的线性组合来进行描述和预测f(X) = w1*x1 + w2*x2 + ...+wd*xd+ b一般用向量形式...原创 2020-07-15 22:17:52 · 574 阅读 · 0 评论 -
机器学习西瓜书笔记(一)---------绪论
机器学习笔记(一)---------绪论机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。1.数据集(data set):机器学习的基础是数据,数据的集合;2.示例instance、样本sample:每条数据描述了一个对象的信息,该对象称为示例,一般应用X表示;3.属性attribute、特征feature:数据描述的是样本在某些方面的性质,称之为属性;4...原创 2020-07-15 21:26:24 · 248 阅读 · 0 评论