
机器学习实战
文章平均质量分 91
瞄代码的喵
小白学编程
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习实战】第四章:朴素贝叶斯
朴素贝叶斯优点:在数据较少的情况下仍然有效,可以出来多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据贝叶斯贝叶斯概率引入先验知识和逻辑推理来处理不确定命题。另一种概率解释称为频数,它只从数据本身获得结论,并不考虑逻辑推理及先验知识。条件概率p(c|x) = p(x|c)p(c)/p(x)朴素贝叶斯的一般过程:1.收集数据:可以使原创 2018-01-21 22:27:53 · 385 阅读 · 0 评论 -
【机器学习实战】第十章:K-近邻算法
优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值型和标称型 伪代码:对未知类别属性的数据集中的每个点一次执行以下操作:1.计算一直类别数据集中的点与当前点之间的距离;2.按照距离递增次序排序3.选取与当前点距离最小的K个点4.确定前K个点所在类别的出现频率5.返回前K个点出现频率最高的类别作为当前点的预测分类...原创 2018-02-04 17:52:01 · 251 阅读 · 0 评论 -
【机器学习实战】第五章:Logistics回归
主要思想:根据现有数据对分类边界建立回归公司,以此进行分类;目的:寻找最佳拟合参数,使用的是最优化算法。一般过程:收集数据:采用任意方法收集数据。准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。分析数据:采用任意方法对数据进行分析。训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。测试算法:一旦训练步骤完成,分类将原创 2018-01-20 23:06:37 · 511 阅读 · 0 评论 -
【机器学习实战】第七章:利用AdaBoost元算法提高分类性能
单层决策树: 基于单个特征来做决策,由于这棵树只有一次分裂过程,因此它实际上仅仅是一个树桩。集成方法:不同算法的集成;同一算法在不同设置下的集成;AdaBoost:优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。缺点:对离群点敏感。适用数据类型:数值型和标称型数据。bagging 和boosting对比分析: 原理差别bagging从原始数据集选择S次后得到S个新数...原创 2018-02-11 18:13:32 · 653 阅读 · 0 评论