
机器学习
文章平均质量分 89
杂草莉
这个作者很懒,什么都没留下…
展开
-
FP-growth算法通俗讲解
FP-growth算法是一种高效发现频繁集的方法。例如你在搜索引擎中搜索一个词,它会自从补全查询词项,该处用到了FP-growth算法,通过查看互联网上的用词来找出经常在一块出现的词。【FP(Frequent Pattern)】 FP-growth算法基于Apriori算法,但是比Apriori算法执行速度快,通常性能要好两个数量级以上。FP-growth算法虽然能更高效地发现频繁项集,但是不能用于发现关联规则。 FP-growth算法将数据集存储在一个特定的F...原创 2020-11-29 13:29:21 · 5936 阅读 · 0 评论 -
Apriori算法通俗讲解
一、Apriori算法简介 Apriori算法用于解决大规模数据集的关联分析问题。关联分析(association analysis)或关联规则学习(association rule learning)是从大规模数据集中寻找物品间的隐含关系。但是,寻找物品的不同组合是一项十分耗时的任务,计算代价高,蛮力搜索并不能解决问题,所以需要更智能的方法在合理时间范围内找到频繁项集。Apriori算法就是解决这个问题的。二、关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务。...原创 2020-10-05 21:20:27 · 12472 阅读 · 3 评论 -
K-均值聚类算法通俗讲解
本章开始讲无监督学习,与有监督学习最大的区别是目标变量事前不存在。 本章是K-均值聚类算法。聚类是一种无监督的学习,它将相似的对象归到同一个簇中,将不相似对象归到不同簇。有点像全自动分类。聚类有时也被称为无监督分类,其产生的结果与分类相同,只是类别没有预先定义。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。 K-均值聚类(K-means)算法是指将数据集分成k个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。一、K-均值算法 ...原创 2020-09-22 21:16:20 · 17663 阅读 · 0 评论 -
树回归算法之通俗讲解
本章也是预测数值型数据,非分类算法。 前面介绍了线性回归预测数值型数据,但是有不足: (1)需要拟合所有的样本点(局部加权线性回归除外) (2)当数据拥有众多特征且特征之间关系十分复杂时,构建全局模型的想法就显得很难了,也略显笨拙。 (3)实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据。 所以就用到了树回归,树结构和回归法结合。 树回归是通过构建树,来对连续性数值型(回归)数据...原创 2020-09-05 22:43:55 · 3222 阅读 · 0 评论 -
Regression算法之通俗讲解
本篇内容较多,系统性介绍方法、算法。Regression的意思是回归,回归和之前讲的分类都属于监督学习。与之前讲的分类机器学习方法不同,回归在于其目标变量是连续数值型。回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式,就是所谓的回归方程。确定回归方程的回归系数的过程就是回归。一旦有了这些回归系数,再给定输入,做预测就非常容易了。具体做法就是将输入带入回归方程中,计算结果,就得到了预测值。一、用线性回归找到最佳拟合直线 说到回归,一般指的是线性回归(l...原创 2020-08-31 11:45:48 · 2392 阅读 · 0 评论 -
AdaBoost算法通俗讲解
AdaBoost是元算法中最流行的一种,也被认为是最好的监督学习的方法 。一、元算法 元算法(meta-algorithm),也被称作集成方法(ensemble method),是对其他算法进行组合的一种方式,将不同的分类器组合起来的结果。使用集成方法时有多种形式:可以是不同算法的集成,也可以是同一算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。 下面介绍基于同一种分类器多个不同实例的两种计算方法bagging和boosting。 ...原创 2020-07-20 18:44:51 · 1645 阅读 · 0 评论 -
支持向量机算法理解
支持向量机(Support Vector Machines,SVM),在很多地方见过,如强化学习、入侵检测中,作为机器学习的一种据说很好算法,今天开始了解一下,还不够深入,等待更新。一、分隔超平面假设有两类线性可分的样本,分隔超平面就是将两类样本进行分隔。在二维平面上,分隔超平面是一条一维(一元)直线f(x)=ax+b;在三维空间里,分隔超平面是一个二维(二元)平面f(x,...原创 2020-03-22 00:08:45 · 1790 阅读 · 0 评论 -
逻辑回归算法之梯度算法
在学习Logistic逻辑回归算法(上一节介绍)编程时,被其中一句python语句卡住了,该语句就是:weights = weights + alpha * dataMatrix.transpose() * error让我们来顺一下。首先,是二分类算法,类别为1或0,利用sigmoid函数很合适令:整合得:当sigmoid>0.5时,分类为1,sig...原创 2020-02-22 17:00:36 · 2230 阅读 · 0 评论 -
Logistic回归算法讲解
回归:假设有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。Logistic回归进行分类是根据现有数据对分类边界线建立回归公式(找最佳拟合),以此进行分类。这里的回归表示要找到最佳拟合参数集,多元函数的参数集合,非线性回归。 Logistic回归训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。不同于之...原创 2018-11-27 21:28:30 · 2031 阅读 · 0 评论 -
朴素贝叶斯分类器算法通俗讲解
首先会用到贝叶斯决策理论,说一下。贝叶斯决策理论的核心思想是:选择具有最高概率的决策。例如一个点(x, y),属于类别1的概率是p1(x, y),属于类别2的概率是p2(x, y),用贝叶斯决策理论来判断它的类别: 如果p1(x, y) > p2(x, y),那么类别1; 如果p1(x, y) < p2(x, y),那么类别2。...原创 2018-11-13 14:07:20 · 2072 阅读 · 0 评论 -
决策树算法通俗讲解
决策树就是先把一堆数据依次按照某一个条件(特征)划分子集,构建成树,然后来一条新的数据,让新数据按照构造树时的条件一一比较,直到找到叶子节点确定类别。(一)构造决策树 我们知道每一条数据中都包含几个特征(值),决策树需要根据某一条件来判断划分子集。那么好几个特征中我们选择哪个特征作为决策对象才会有好的划分效果呢?首先我们要找到决定性的特征。还有一个问题,怎么样...原创 2018-11-05 15:22:06 · 1693 阅读 · 0 评论 -
kNN算法通俗讲解
接触机器学习一段时间了,知道它有四种分类:监督学习、无监督学习、半监督学习、强化学习;也知道它的一般步骤:收集数据-->准备数据-->分析数据-->选择模型-->训练模型-->评估模型;知道数据越多测试结果就越准确。 但是,作为一理工女,不动手就不理解,有很多疑团,怎么让一堆样本做为数据输入,怎么训练数据让模型更好,通过什么方法来评估...原创 2018-11-04 18:27:16 · 1816 阅读 · 0 评论