
机器学习
lwbeyond
这个作者很懒,什么都没留下…
展开
-
机器学习入门好文
史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷让我们从机器学习谈起导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅转载 2017-04-15 00:30:36 · 1406 阅读 · 0 评论 -
决策树 -- 基于ID3算法
决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,这个过程也是机器学习的过程。1. 首先要解决的问题在构造决策树时,我们需要解决第一个问题,当前数据集中哪些特征在划分数据分类时起决定性作用。信息增益: 信息论里有一个信息增益的描述,它的定义如下: 在划分数据集之前、之后信息发生的变化称为信息增益。 信息增益最高的特征就是最好的选择。信息增益具体量化为 —- 熵 熵是如何计算的呢?如下:原创 2017-07-11 14:40:04 · 1316 阅读 · 0 评论 -
K-均值聚类算法
聚类:是一种无监督的学习,它将相似的对象归到同一个簇中,有点像全自动分类。1. k-均值聚类算法分类簇数为K 每个簇的质心为所有点的平均值 原理: 1. 随机选择起始质心(也就是簇的中心点) 2. 任意一个中心点是否发生变化? 3. 每个数据点与K个质心的距离比较,哪个距离短,这个数据点就属于哪个簇。 4. 对分好的每个簇,计算簇中所有点的均值,并将均值作为质心(新的中心点) 5. 重原创 2017-06-22 19:09:27 · 1163 阅读 · 0 评论 -
K-近邻算法
1. 原理存在一个样本集合,并且样本集合中的每个数据都存在标签(也就是有确定的值或分类)。当输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较。 然后算法提取样本集中特征最相似数据的分类标签。一般,我们只选取样本数据集中前K个最相似的数据,选出k个最相似数据中出现次数最多的分类,作为新数据的分类。其中计算多个向量点之间的距离,使用欧氏距离公式: d=(xA0−xB0)原创 2017-06-13 23:51:23 · 643 阅读 · 0 评论 -
Apriori 算法关联分析
描述:关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以由两种形式:频繁项集或者关联规则。频繁项集:是经常出现在一起的物品的集合。 关联规则:暗示两种物品之间可能存在很强的关系。量化定义: 交易号码 商品 0 豆奶,莴苣 1 莴苣,尿布,葡萄酒,甜菜 2 豆奶,尿布,葡萄酒,橙汁 3 莴苣,豆奶,尿布,葡萄酒 4 莴苣,豆奶,尿布,橙汁如原创 2017-07-10 18:52:45 · 1899 阅读 · 0 评论 -
使用sklearn做单机特征工程
1. 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,转载 2017-09-18 17:47:16 · 656 阅读 · 0 评论