
机器学习实战
文章平均质量分 95
从入门到入坑
不想悲伤到天明
这个作者很懒,什么都没留下…
展开
-
机器学习实战 -- 逻辑回归
Sigmoid 函数 和 Logistic 回归分类器 最优化理论初步 梯度下降最优化算法 数据中的缺失处理基于Logistic 回归 和 Sigmoid 函数的分类Sigmoid 函数 : 性质: ...原创 2019-08-21 21:17:09 · 426 阅读 · 0 评论 -
机器学习实战 -- 利用PCA来简化数据
降维技术对数据进行简化的原因 :使得数据集更易使用 降低算法的计算开销 去除噪声 使得结果易懂在已标注与未标注的数据上都有降维技术。我们将主要关注未标注数据集上的降维技术,该技术同时也可以用于已标注的数据。 第一种降维的方法是主成分分析PCA 。在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最...原创 2019-08-19 11:23:08 · 575 阅读 · 0 评论 -
机器学习实战 -- 使用Apriori 算法进行关联分析
Apriori 算法 频繁项集生成 关联规则生成关联分析关联分析是在一种在大数据集中寻找有趣关系的任务。这种任务有两种形式: 频繁项集或者关联规则。频繁项集是经常出现在一块的物品构成的集合。关联规则是暗示两种物品之间可能存在很强的关系。支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。可信度或置信度:是针对诸如{尿布}—>{葡萄酒}的关联规则...原创 2019-08-18 10:52:59 · 492 阅读 · 0 评论 -
机器学习实战 -- K-均值聚类算法
k - 均值聚类算法对聚类得到的簇进行后处理二分k -均值聚类算法聚类是一种无监督学习,聚类分析试图将相似的对象归入同一簇,将不相同的对象归到不同簇中。相似这一概念取决于所选的相似度计算方法。K-均值聚类算法优点:易于使用缺点:收敛于局部极小值(converge at local minima);大规模数据集上运行很慢适用范围:数值k-均值 是在给定数据集...原创 2019-08-17 15:05:52 · 1046 阅读 · 0 评论 -
机器学习实战 -- 预测数值型数据: 回归
学习内容线性回归局部加权线性回归岭回归和逐步线性回归预测鲍鱼年龄和玩具售价回归的概念在中学阶段已经接触过了,这里简单介绍 .形如 y = ax + b 这样一个函数方程 , 我们已经知道 大量的 (x,y) , 让我找到一组合适的参数 a,b ,使得我们预测的函数和 实际的函数误差很小。简单来说 a ,b 叫做 回归系数 , 求 a , b 的过程就是回归。...原创 2019-08-16 16:29:00 · 927 阅读 · 0 评论 -
机器学习实战 -- 决策树
决策树的简介在数据集中度量一致性使用递归构造决策树使用 Matplotlib 绘制属性图决策树的认识决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。上图是西瓜书中的示意图,可以看出在判断瓜是好瓜还是坏瓜,通过上面一层一层的决策,就可以很多程度上提高我们对瓜的分类的准确性。上图就是一个决策树。我们只关...原创 2019-08-15 11:25:04 · 477 阅读 · 0 评论 -
机器学习实战 -- 支持向量机(1)
简单介绍支持向量机 利用 SMO 进行优化 利用核函数对数据进行空间转换 将SVM 和其他分类器进行对比 基于最大间隔分类数据优点 : 泛化错误率低,计算成本低,结果易解释缺点 : 对参数调节和核函数的选择敏感,原始分类器不加修饰仅适用于处理二类问题线性不可分数据集适合数据类型 : 数值型和标称型数据上图中 A 中我们很容易就可以用一条直线将两组数据分...原创 2019-08-27 19:45:20 · 380 阅读 · 0 评论 -
机器学习实战 -- 利用AdaBoost 元算法提高分类性能
组合相似的分类器来提高分类性能 应用AdaBoost算法 处理非均衡分类问题元算法是对其他算法进行组合的一种方式。基于数据集多重抽样的分类器 我们可以将不同的分类器组合起来,而这种组合结果被称为集成方法或者元算法。使用集成方法时会有很多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以数据集不同部分分配给不同分类器之后的集成。AdaBoost...原创 2019-09-01 10:12:44 · 859 阅读 · 0 评论 -
机器学习 -- 密度聚类(DBSCAN)
密度聚类 密度聚类也称"基于密度的聚类"(density-based clustering) ,次类算法假设聚类结构能通过样本分布的紧密程度确定。通常情况下,密度聚类从样本密度的角度来考察样本之间的可连接线,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。 DBSCAN 是一种著名的密度聚类算法,它基于一组 "邻域" 参数 (, Minpts) 来刻画样本分布的紧密程度...原创 2019-09-07 21:14:20 · 1097 阅读 · 0 评论