
机器学习
pcb931126
这个作者很懒,什么都没留下…
展开
-
机器学习-决策树2
上一篇博客简单粗暴的介绍了基于ID3算法的决策树的代码实现,这篇博客具体介绍一下决策树中常用算法ID3、C4.5以及CART算法的原理,最终会给出基于C4.5的代码实现,CART算法代码实现在回归树那边。一 、基本概念1.信息量决策树生成算法的背后的思想是利用一个度量信息量的方法,来衡量一种“数据划分“的优劣,从而生成一个判定序列。具体而言,它会不断寻找数据划分的方法,使得在该划分下能够获得...原创 2018-12-19 19:59:32 · 217 阅读 · 0 评论 -
机器学习-线性回归
一、用线性回归预测最佳拟合直线 回归的目的是用已知的回归方程预测数值型的目标值,求回归方程系数的过程叫做回归。具体的做法是用回归系数乘以输入值,再将结果全部加起来,就得到预测值。 求回归系数的一个常用方法是找出使得误差最小的www,这里的误差指的是预测yyy值和真实yyy值之间的差值,使用误差的简单累加正...原创 2019-01-08 23:31:25 · 321 阅读 · 0 评论 -
机器学习-树回归
基于CART形成的回归树以及树的预剪枝和后剪枝,代码如下:"""机器学习-树回归(CART)姓名:pcb日期:2019.01.10"""from numpy import *class treeNode(): def __init__(self,feat,val,right,left): featureToSplitOn=feat valu...原创 2019-01-14 15:43:40 · 233 阅读 · 0 评论 -
机器学习-支持向量机(SVM)
关于SVM的理论以及推导过程可以参考这边博文:http://www.cnblogs.com/pinard/p/6097604.html;这边博客讲的非常细致,具体到每个公式的推导,但如果想要深入的了解SVM原理还需要自己把过程以及公式都推导一遍。基于Python实现的SVM代码打包地址:https://download.youkuaiyun.com/download/pcb931126/10889547...原创 2019-01-01 21:37:00 · 1669 阅读 · 0 评论 -
机器学习-AdaBoost元算法
一、AdaBoost元算法简介元算法(也叫集成算法)是对其他算法进行组合的一种方式。Boosting是通过集中关注被已有分类器错分的那些数据来获得新的分类器,并且Boosting分类器中的权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。Boosting有多个版本,博客讨论其中最流行的版本AdaBoosting。二、训练算法:基于错误提升分类器的性能AdaBoosting(a...原创 2019-01-04 22:33:09 · 361 阅读 · 0 评论 -
机器学习Logistic回归
一、Logistic回归       使用一条直线对一些数据点进行拟合(该线称为最佳拟合线),这个拟合过程叫做回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。训练Logistic分类器的做法就是寻找最佳拟合参数,使用的是最优化算法(梯度上升算法以及改进的随机梯度上升算法原创 2018-12-25 11:14:15 · 243 阅读 · 0 评论 -
机器学习-决策树
基本原理: kNN算法可以完成很多分类任务,但是它的最大的缺点就是无法给出数据的内在含义,决策树的主要优点就在于数据形式非常容易理解。 决策树的一般流程:收集数据准备数据:树构造算法只适用于标称型数据,因此数值型必须离散化分析数据:可以使用任何方法,在树构造完成之后,我们可以检查图形是否符合预期训练算法:构造树的数据结构测试算法:使用经验树计算错误率使用算法:使用训练好的树模...原创 2018-12-18 20:29:01 · 176 阅读 · 0 评论 -
机器学习-朴素贝叶斯分类器
一、条件概率使用贝叶斯分类器分类文本属性。现已知一个词是否出现在一篇文档中,也知道该文档所有的类别,那么使用条件概率可以得到: p(ci∣w)=p(w∣ci)p(ci)p(w))p(c_{i}|w)=\frac{p(w|c_{i})p(c_{i})}{p(w))}p(ci∣w)=p(w))p(w∣ci)p(...原创 2018-12-23 11:34:42 · 250 阅读 · 0 评论 -
机器学习-k近邻算法(kNN)
简单的说,kNN算法采用测量不同特征值之间的距离方法进行分类。kNN算法优缺点以及使用范围: 优点: 精度高、对异常值不敏感、无数据输入假定; 缺点:计算复杂度高,空间复杂度高 使用数据范围:数值型和标称型。 kNN算法的工作原理:存在一个样本数据集(训练样本集),并且样本集中的每个样本都存在标签,即我们知道样本集中的每个特征与样本集中的数据对应的特征进行比较,然后算法提取样...原创 2018-12-15 11:24:52 · 467 阅读 · 0 评论 -
机器学习-KMeans
一、 K-均值聚类算法聚类是一种无监督学习,它将相似的对象归到同一个簇中。簇内对象越相似,聚类效果越好。K-Means算法就是其中的一种聚类算法。其实现代码如下:#1.KMeans均值聚类算法#2.伪代码""" 创建k个点作为起始质心(随机选择) 当任意一个点的簇分配结果发生改变时 对数据中的每个数据点 对每个...原创 2019-01-15 10:48:16 · 369 阅读 · 0 评论