
机器学习
文章平均质量分 76
故乡月zyl
简单,祥和,幸福
展开
-
机器学习--概述
何谓机器学习,简单地说,就是把无序的数据转换成有用的信息。 分类是机器学习的主要任务之一,目标是将实例数据划分到合适的分类中。首先需要做的是算法训练,即学习如何分类。通常我们为算法输入大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合。目标变量是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,而在回归算法中通常是连续型的。训练样本集必须原创 2015-04-14 22:00:22 · 1190 阅读 · 0 评论 -
机器学习--Logistic回归算法
一、基本原理 假设有一些数据点,用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。 Sigmoid函数是一种阶跃函数,具体计算公式如下: 二、算法流程 计算每个类别中的文档数目 对每篇训练文档: 对原创 2015-05-04 21:04:46 · 898 阅读 · 0 评论 -
机器学习--AdaBoost元算法
一、基本原理 假设有一些数据点,用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。训练分类器就是为了寻找最佳拟合参数,使用的是最优化算法。 现实生活中有一些情况,如判断邮件是否为垃圾邮件,判断患者癌细胞为恶性的还是良性的,以及预测患有疝病的马的存活问题等,这就属于分类问题了,是线性回归无法解决的。这里以线性回归为基础,讲解L原创 2015-05-12 21:36:32 · 675 阅读 · 0 评论 -
机器学习--朴素贝叶斯算法案例
电子邮件垃圾过滤 1、如何从文本文档中构建自己的词列表。使用正则表达式切分句子,并将字符串全部转换为小写。##################################### 功能:切分文本# 输入变量:大字符串 big_string# 输出变量:字符串列表####################################def text_parse(b原创 2015-04-30 19:28:16 · 1079 阅读 · 0 评论 -
机器学习--Logistic回归算法案例
案例:从疝气病症预测病马的死亡率 准备数据时,数据中的缺失值是个非常棘手的问题。因为有时候数据相当昂贵,扔掉和重新获取都是不可取的,所以必须采用一些方法来解决这个问题。 在预处理阶段需要做两件事:第一,所有的缺失值必须用一个实数值来替换,因为我们使用的NumPy数据类型不允许包含缺失值。这里选择实数0来替换所有缺失值,恰好能适用于Logistic回归。第二,如果原创 2015-05-07 20:15:57 · 1469 阅读 · 0 评论 -
机器学习--k均值聚类(k-means)算法
一、基本原理 分类是指分类器根据已标注类别的训练集,通过训练可以对未知类别的样本进行分类。分类被称为监督学习。如果训练集的样本没有标注类别,那么就需要用到聚类。聚类是把相似的样本聚成一类,这种相似性通常以距离来度量。聚类被称为无监督学习。 聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的原创 2015-05-20 20:19:18 · 2301 阅读 · 0 评论 -
机器学习--朴素贝叶斯算法
一、基本原理 贝叶斯决策理论的核心思想是选择具有最高概率的决策,通俗的说就是待分类的数据分到哪个类别的概率最高就 属于哪个类别。 其基本原理非常简单:即待分类数据分到哪个类别的概率最高就属于哪个类。这就是“朴素”的原因。那为何要用贝叶斯公式?首先,先看贝叶斯公式: P(c/x) = P(x/c)*P(c) / P(x)如果我们容易求出等式右边的概率:P(x/c)原创 2015-04-28 20:27:09 · 689 阅读 · 0 评论 -
机器学习--k-近邻(kNN)算法
一、基本原理 存在一个样本数据集合(也称训练样本集),并且样本集中每个数据都存在标签。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。我们一般只选择样本集中前k(k通常是不大于20的整数)个最相似的数据,最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类。二、算法流程原创 2015-04-16 21:15:28 · 1007 阅读 · 0 评论 -
机器学习--决策树(ID3)算法案例
#######################################功能:决策树的分类函数#输入变量:input_tree, feat_labels, test_vec# 决策树,分类标签,测试数据#输出变量:class_label 类标签######################################def classify(input_tree,原创 2015-04-24 17:57:56 · 2421 阅读 · 0 评论 -
机器学习--决策树(ID3)算法
一、基本原理 决策树由决策结点、分支和叶子组成。在选择哪个属性作为结点的时候,采用信息论原理,计算信息增益,获得最大信息增益的属性就是最好的选择。信息增益是指原有数据集的熵减去按某个属性分类后数据集的熵所得的差值。然后采用递归的原则处理数据集,并得到了我们需要的决策树。 二、算法流程 检测数据集中的每个子项是否属于同一分类: If 是,则回类标签;原创 2015-04-20 21:16:57 · 1035 阅读 · 0 评论 -
机器学习--k-近邻(kNN)算法案例
一、改进约会网站的配对效果 想要预测的目标变量:不喜欢的人、魅力一般的人、极具魅力的人 样本特征:每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰淇淋公升数 约会数据信息存放在文本文件datingTestSet.txt中,每个样本数据占据一行,共有1000行。 实现步骤1、将文本文件中的数据进行解析##########原创 2015-04-17 10:29:22 · 1060 阅读 · 0 评论 -
机器学习--Apriori算法
一、基本原理 关联分析(association analysis)就是从大规模数据集中寻找物品间的隐含关系。这里的主要问题是,寻找物品的不同组合是一项十分耗时的任务,所需计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间内找到频繁项集。Apriori算法正是基于该原理得到的。 关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系分为两种形式:原创 2015-05-21 19:51:35 · 1075 阅读 · 0 评论