
机器学习实战
Evil
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习实战10:Apriori
关联分析- Apriori算法优点:易编码实现。缺点:在大数据集上可能较慢。适用数据类型:数值型或者标称型数据。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。 频繁项集( frequent item sets)是经常出现在一块的物品的集合, 关联规则( association rules)暗示两种物品之间可能存在很强的关系。 一个项集的支...原创 2019-12-28 22:41:18 · 585 阅读 · 0 评论 -
机器学习实战09:K均值聚类
聚类聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。K-均值( K-means)聚类的算法之所以称之为K-均值是因为它可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。簇识别在介绍K-均值算法之前,先讨论一下簇识别( cluster identification)。簇识别给出聚类结果的...原创 2019-12-28 21:59:21 · 767 阅读 · 0 评论 -
机器学习实战08:树回归
树回归优点:可以对复杂和非线性的数据建模。缺点:结果不易理解。适用数据类型:数值型和标称型数据。连续和离散型特征的树的构建在树的构建过程中,需要解决多种类型数据的存储问题,可以使用一部字典来存储树的数据结构,该字典将包含以下4个元素:(1)待切分的特征(2)待切分的特征值(3)右子树。当不再需要切分的时候,也可以是单个值(4)左子树。与右子树类似树包含左键和右键,可以存储另一棵...原创 2019-12-28 20:30:07 · 255 阅读 · 0 评论 -
机器学习实战07:线性回归、岭回归、套索回归、逐步回归等
- 用线性回归找到最佳拟合直线优点:结果易于理解,计算上不复杂。缺点:对非线性的数据拟合不好。适用数据类型:数值型和标称型数据。回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式 。- 回归的一般方法(1) 收集数据:采用任意方法收集数据。(2) 准备数据:回归需要数值型数据,标称型数据将被转成二值型数据。(3) 分析数据:绘出数据的可视化二维图将有助于...原创 2019-12-14 22:02:14 · 1414 阅读 · 0 评论 -
机器学习实战06:利用AdaBoost元算法提高分类性能
我们可以将不同的分类器组合起来,而这种组合结果则被称为集成方法或者元算法。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成 ,还可以是数据集不同部分分配给不同分类器之后的集成。优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。缺点:对离群点敏感。适用数据类型:数值型和标称型数据。- bagging:基于数据随机重抽样的分类器构建方法自举...原创 2019-12-14 21:22:31 · 303 阅读 · 0 评论 -
机器学习实战05:支持向量机
- 基于最大间隔分隔数据关于支持向量机优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。适用数据类型:数值型和标称型数据。如果数据点离决策边界越远,那么其最后的预测结果也就越可信。 我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为间隔。我们希望间隔尽可能地大,这是因为如果我...原创 2019-12-02 15:50:14 · 520 阅读 · 0 评论 -
机器学习实战04:逻辑回归
Logistic回归的一般过程(1) 收集数据:采用任意方法收集数据。(2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。(3)分析数据:采用任意方法对数据进行分析。(4) 训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。(5) 测试算法:一旦训练步骤完成,分类将会很快。(6) 使用算法:首先,我们需要输入一些数据,并将...原创 2019-11-28 20:12:25 · 423 阅读 · 0 评论 -
机器学习实战03:朴素贝叶斯
- 基于贝叶斯决策理论的分类方法优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。- 朴素贝叶斯的一般过程(1) 收集数据:可以使用任何方法。本章使用RSS源。(2) 准备数据:需要数值型或者布尔型数据。(3) 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。(4) 训练算法:计算不同的独立特征的...原创 2019-11-24 00:24:59 · 209 阅读 · 0 评论 -
机器学习实战02:决策树
- 决策树的构造优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配问题。适用数据类型:数值型和标称型。- 决策树的一般流程(1) 收集数据:可以使用任何方法。(2) 准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。(3) 分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。(4) 训...原创 2019-11-23 16:23:11 · 214 阅读 · 0 评论 -
机器学习实战01:k邻近算法
KNN的工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相...原创 2019-11-23 15:57:26 · 236 阅读 · 0 评论