
机器学习实战
STILLxjy
不要让任何人打乱你生活的节奏
展开
-
[实战] 朴素贝叶斯分类器进行文档分类
贝叶斯准则:贝叶斯准则告诉我们:如何交换条件概率中的条件和结果,即如果已知P(x|c),要求P(c|x):朴素贝叶斯有两个假设:1:特征之间相互独立2:每个特征同等重要对于一个文档分类问题,已知文档x,要求x属于类别c的概率P(c|x)在训练数据集中,我们可以很方便的求出类别为c的文档的概率P( c)= 类别为c的文档数/文档总数而在类别为c的文档中,特征为x的概率P(x|c)=...原创 2019-05-15 19:01:19 · 828 阅读 · 0 评论 -
[实战] 朴素贝叶斯分类器进行垃圾邮件过滤
我们已经讲解过朴素贝叶斯分类器的基本原理和实现:动手实现朴素贝叶斯分类器进行文档分类在此基础上,我们实现垃圾邮件的过滤,数据为50封txt邮件(1)将text文本文件,分成单词列表使用正则表达式,使用除单词和数字外的任意字符串为分隔符并删除长度小于3的字符串def textParse(bigString): import re listOfTokens = re.spli...原创 2019-05-15 21:24:41 · 1805 阅读 · 0 评论 -
[实战] 逻辑回归分类算法
逻辑回归算法是将数据样本分为两类0:1假设输入样本为向量x,我们希望求解出最佳的参数向量w使得 sigmoid(w’x) 可以很好的将数据划分,其中sigmoid函数如下所示,w’表示w的转置实现方法:随机初始化待求解参数w使用梯度上升(或梯度下降)算法,迭代求解局部最优值:代码实现:(1)加载数据:from numpy import *def loadDataSet()...原创 2019-05-16 13:39:08 · 441 阅读 · 0 评论 -
[实战] 树回归算法
全局建模的不足:线性回归算法,在全局上拟合所有的样本,使得整体上误差最小。但是当数据有众多的特征并且特征之间的关系十分复杂时,建立全局模型的想法就显得十分的困难,并且效果也不会太好。在实际生活中,很多问题都是非线性的,不可能使用全局线性模型来拟合任意的数据。局部性建模:对于一些复杂的非线性的数据,我们可以将数据切分成很多分易建模的数据,然后再各个子段分别使用模型进行建模。基于决策树的想...原创 2019-05-22 17:07:06 · 440 阅读 · 0 评论 -
[实战] K-means算法 & 二分K-means算法
K-means算法:K-means算法是一个被广泛使用且简单的无监督算法。K-means算法将数据分为k个簇类,使得每个簇类内部数据尽可能的相似,而簇之间的数据尽可能的不同。K-means算法中的簇类数目为k,是用户认为给定的。算法流程:K-means代码:from numpy import *#加载数据def loadDataSet(fileName): #gene...原创 2019-05-22 21:15:04 · 992 阅读 · 0 评论 -
[实战] AdaBoost元算法
理论原理:在机器学习中,有多种分类算法,每一种分类算法都有各自的优缺点。为了提高模型的准确度,我们可以将多个分类器组合起来,进行更好的预测,这种组合结果被称为:集成方法或元算法使用集成方法时有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。而AdaBoost元算法,就是基于第2种集成形式:同一算法在不同设置下的集成。A...原创 2019-05-18 11:40:41 · 280 阅读 · 0 评论