
机器学习
文章平均质量分 70
keithic
sdgfgrv
展开
-
机器学习算法及实战——AdaBoost
俗话说“三个臭皮匠顶个诸葛亮”,集合算法(提升算法)就是将若干个算法集成,输出投票表决的结果。AdaBoost与Bagging两者的区别是:Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。 Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。 Bagging:使用均匀取样,每个...转载 2018-07-29 13:43:25 · 328 阅读 · 0 评论 -
机器学习算法及实战——决策树代码(四)
很好的理解实例。详细解释请移步《决策树-码农场》基本骨架的Python实现:def majorityCnt(classList): """返回出现次数最多的分类名称 :param classList: 类列表 :return: 出现次数最多的类名称 """ classCount = {} # 这是一个字典 for vote in c...转载 2018-07-27 21:46:28 · 293 阅读 · 0 评论 -
机器学习算法及实战——决策树代码实现(三)
基于《机器学习实战》上的代码。 注释引自 Python3《机器学习实战》学习笔记(三)# -*- coding: UTF-8 -*-from math import logimport operator"""函数说明:计算给定数据集的经验熵(香农熵)"""def calcShannonEnt(dataSet): numEntires = len(dataSet) ..转载 2018-07-27 21:24:25 · 386 阅读 · 0 评论 -
机器学习算法及实战——决策树(二)
if-then规则集合一条由根节点到叶节点的路径 –> 一条规则路径上内部节点的特征 –> 规则的条件叶节点的类 –> 规则的结论性质:互斥且完备1.特征选择算法 输入:训练数据集D和特征A; 输出:特征A对训练数据集D的信息增益g(D,A) (1) 计算数据集D的经验熵H(D), H(D)=−∑k=1K|Ck||D|log2|Ck...转载 2018-07-27 18:08:06 · 510 阅读 · 0 评论 -
机器学习算法及实战——决策树(一)
决策树是附加概率结果的一个树状的决策图,是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,树中的每一个节点表示对象属性的判断条件,其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果。常用的决策树算法有ID3,C4.5和CART。它们都是采用贪心(即非回溯的)方法,自顶向下递归的分治方法构造。这几个算法选择属性划分的方法各不相同,...原创 2018-07-27 16:56:24 · 628 阅读 · 0 评论 -
统计学中相似性度量(距离)
在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。而度量距离的方法有:欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离等等。1.欧氏距离(Euclidean Distance)在欧几里得空间中,点x =(...转载 2018-07-27 12:35:54 · 3069 阅读 · 0 评论 -
机器学习算法及实战——kNN算法
K近邻算法(k-nearest neighbor, k-NN)在各种算法中算是比较简单的算法,理解起来也比较轻松。1.描述在一个已知特征标签的数据集(训练集)中,数据集的各个元素在坐标空间中都是有距离的,而距离最近的数据子集一般具有相对优势的特征标签数量。新数据(测试数据,没有特征标签)输入后,观测与其相临近的K个数据组成的数据子集的特征标签,其中数量最多的即是该新数据的特征标签。其中...原创 2018-07-27 12:20:24 · 686 阅读 · 0 评论 -
机器学习及实战——线性回归
线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。其实,还有梯度下降法、坐标轴下降法、最小角回归法等。1.线性回归函数线性回归遇到的问题一般是这样的。我们有m个样本,每个样本对应于n维特征和一个结果输出,如下: 我们的问题是,对于一个新的 他所对应的是多少呢? 如果这个问题里面的...原创 2018-07-30 11:03:21 · 753 阅读 · 0 评论 -
拼写检查器——朴素贝叶斯应用
How to Write a Spelling Corrector作者利用飞行的时间写了一个小代码,实现单词拼写检查功能,基本原理仍是朴素贝叶斯原理。代码仅仅20多行,精湛强大,值得学习。至于朴素贝叶斯算法,作者作了简单的介绍。(下面代码是注释了的,很详细,借鉴凉茶方便面)import re, collections #返回单词的列表#通过正则表达式取出纯字母组成的单词列表...原创 2018-07-26 17:44:48 · 1524 阅读 · 0 评论 -
机器学习算法及实战——朴素贝叶斯代码实现
朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。1.算法思想——基于概率的预测逻辑回归通过拟合曲线(或者学习超平面)实现分类,决策树通过寻找最佳划分特征进而学习样本路径实现分类,支持向量机通过寻找分类超平面进而最大化类别间隔实现分类。相比之下,朴素贝叶斯独辟蹊径,通过考虑特征概率来预测分类。举个...转载 2018-07-26 14:52:08 · 809 阅读 · 0 评论 -
机器学习算法及实战——朴素贝叶斯
朴素贝叶斯(Naive Bayes)= Naive + Bayes 。(特征条件独立 + Bayes定理)的实现。零、贝叶斯定理(Bayes' theorem)所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球...转载 2018-07-26 14:02:03 · 549 阅读 · 0 评论 -
主成分分析(降维)
数据量太大时往往会有相关性较高的维度,给建模计算带来不必要的开支。算法步骤:输入:n维样本集,要降维到的维数n'. 输出:降维后的样本集D' 1) 对所有的样本进行中心化: 2) 计算样本的协方差矩阵 3) 对矩阵进行特征值分解 4)取出最大的n'个特征值对应的特征向量 将所有的特征向量标准化后,组成特征向量矩阵W。 5)对样...原创 2018-08-02 14:06:37 · 12527 阅读 · 0 评论