
机器学习
架良
这个作者很懒,什么都没留下…
展开
-
基于朴素贝叶斯分类方法个人总结
贝叶斯决策理论定义贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。 贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。假设有一个数据集,它由两类数据组成,数据分布如图所示:现在用p1(x,y)表示数据点(x,y)属于类型1(图中圆形表示的类型)的概率,用p2(x,y)表示数据点(x,y)属于类型...原创 2019-07-01 23:05:01 · 788 阅读 · 0 评论 -
PCA算法个人总结
降维技术由于之前我们所分析的数据都只有两维,而在实际生活中我们获取到的数据不仅如此。有时候我们会展示三维图像或者只显示其相关特征,但是数据往往会有许多的特征。数据显示并非是大规模数据下的唯一难题,对数据进行化简还有以下原因:使得数据集更容易使用降低很多算法的计算开销去除噪声使得结果更易懂下面介绍几种常用的降维技术:主成分分析(PCA)。在PCA中,数据从原来的坐标系转换到了新的...原创 2019-09-11 13:59:24 · 601 阅读 · 0 评论 -
FP-growth算法个人总结
FP树FP-growth算法将数据存储在一种称为FP树的紧凑数据结构中。FP代表频繁模式。一棵FP树看上去和其他的树类似,但是它通过链接来连接相似的元素,被连接的元素可以看作一个链表。下面是FP树的一个例子:同搜索树不同,一个元素可以在FP树中出现多次,FP树会存储项集出现的频率,每个项集会以路径形式存在树中。存在相似元素的集合会共享树的一部分。树节点给出集合中单个元素及其在序列中出现的次数...原创 2019-09-10 14:58:08 · 1329 阅读 · 0 评论 -
Apriori算法个人总结
关联分析关联分析是指一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集是经常出现在一块的物品的集合,关联规则暗示两种物品之间可能存在较强的关系。下面举一个实例:交易号码商品0豆奶,莴苣1莴苣,尿布,葡萄酒,甜菜2豆奶,尿布,葡萄酒,橙汁3莴苣,豆奶,尿布,葡萄酒4莴苣,豆奶,尿布,橙汁频繁...原创 2019-09-09 13:42:51 · 2405 阅读 · 0 评论 -
k-均值聚类算法总结
相关定义聚类是一种无监督的学习,它将相似的对象归到同一个簇中。聚类方法几乎可以应用到所有的对象,簇内的对象越相似,聚类的效果越好。K-均值(K-means)聚类是指将数据划分成k个不同的簇,且每个簇的中心采用簇中所含数据的均值计算而成。聚类和分类最大不同在于,分类的目标事物已知,而聚类不一样。因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时候也被称为无监督分类。K-均值聚类算法...原创 2019-09-07 13:04:28 · 2909 阅读 · 0 评论 -
树回归算法个人总结
当数据拥有众多特征并且特征之间关系十分复杂的时候,构建全局模型就十分困难,也略显笨拙。而且,实际生活中有很多的问题都是非线性的,不可能使用全局线性模型来拟合任何数据。一种解决办法就是将数据集切分成很多份易于建模的数据,然后利用线性回归技术来建模。如果首次切分后仍难以拟合线性模型就继续切分。在这种切分下,树结构和回归法就相当有用。复杂数据的局部性建模分类回归树(CART)是一种树构建方法。该方...原创 2019-09-06 10:35:49 · 2342 阅读 · 1 评论 -
线性回归个人总结
定义线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。回归的主要目的是为了预测数值类型的目标值,最简单的办法就是构建一个关于自变量和因变量的关系式,比如某套房屋的价格计算公式如下:房价(万元)=1.5∗建筑面积+0.85∗公摊面积房价(万元)=1.5*建筑面积+0.85*公摊面积房价(万元)=1.5∗建筑面积+0.85∗公摊面积...原创 2019-09-05 08:58:48 · 2318 阅读 · 0 评论 -
AdaBoost个人总结
定义Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。基于数据集多重抽样的分类器我们可以将不同的分类器组合起来,而这种组合结果则被称为继承方法或者元算法。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成...原创 2019-08-31 20:14:42 · 980 阅读 · 2 评论 -
支持向量机个人总结
支持向量机定义支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane) 。简单来说,SVM就是一种分类器,将数据一分为二分成两部...原创 2019-08-30 19:49:30 · 837 阅读 · 0 评论 -
Logistics回归算法个人总结
Logistics回归定义说是回归,但其本质上还是属于分类算法。利用Logistics回归进行分类的主要思想是:根据现有数据对分类边界建立回归方程,以此进行分类。基于Logistics回归和Sigmoid函数的分类因为要分类,于是希望有这样一个函数,它在接受所有的输入之后,可以返回该样本的类别。例如,在两种类别的情况下,函数希望输出0或1。在数学上恰好有这样一个函数具有该性质,该函数被称为S...原创 2019-07-05 22:20:47 · 3132 阅读 · 0 评论 -
决策树算法简单个人总结
决策树定义决策树,顾名思义,就是以树的形式展现出来用于做决策。下面定义一种游戏“二十个问题”,规则如下:一方脑海中想一个事物,另一方向他提问,最多20个问题,被提问者只能回答是否,提问者逐步缩小范围,最终猜出结果为胜。决策树的工作原理和上面的游戏类似,用户输入一系列的数据,然后给出结果。决策树的构造在构造决策树的时候,首先要解决的问题是如何划分数据。为了找到决定性的特征,划分出最好的结果...原创 2019-06-29 16:31:41 · 479 阅读 · 0 评论 -
KNN(K最近邻)分类算法个人总结
最近刚刚开始入门机器学习,打算把学过的东西做一个总结,以便日后的查阅。本人还属于小白阶段,这篇总结难免会出现错误,新手上路,请大佬多多指教。KNN定义K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于...原创 2019-06-27 16:37:15 · 3473 阅读 · 0 评论 -
SVD算法个人总结
SVD的应用利用SVD,我们可以简化数据,使用小很多的数据集来表示原始数据集。这样做,实际上去除了噪声和冗余信息。我们可以把SVD看成是从有噪声的数据中抽取相关特征。下面是SVD的主要应用。隐性语义索引SVD最早的应用之一就是信息检索。我们称利用SVD的方法为隐性语义索引(LSI)或隐性语义分析(LSA)。在LSI中,一个矩阵是由文档和词语共同组成的。当我们在该矩阵上应用SVD的时候,就会...原创 2019-09-12 12:03:48 · 3911 阅读 · 1 评论