- 博客(132)
- 资源 (7)
- 收藏
- 关注
原创 机器学习(决策树四)——简述 剪枝
随着决策树深度的增大,模型效果会变化,但增大太多就会导致过拟合的情况,对于过拟合,常见的有两咱优化方式:剪枝优化 和 随机森林。这篇博客简要介绍剪枝优化,随机森林在后续的博客中再做介绍。
2020-05-29 18:18:11
2204
1
原创 机器学习(决策树三)——简述 ID3 C4.5 CART
决策树常见的算法有ID3 C4.5 CART,这里只简述一下,不做详细介绍。因为了解了决策树的概念,再看这几个算法,特别简单。重点介绍三者的关系。
2020-04-23 20:56:53
4749
原创 机器学习(决策树二)——简述 决策树
了解了信息熵,再看决策树,会很容易的。通过上篇博客,我们知道:信息熵被认为是一个系统有序程度的度量,一个系统越是有序,信息熵就越低,一个系统越是混乱,信息熵就越高。决策树的构造过程就是,如何划分,能让系统变得更加有序。
2020-04-20 18:44:54
4903
原创 机器学习(决策树一)——最直白的话来说信息熵
接下来几篇博客介绍决策树,并且尽量用最直白的话来讲解。本篇博客介绍决策树中比较重要的一个概念——信息熵。
2020-04-19 19:51:41
6909
原创 机器学习(KNN二)——案例:鸢尾花数据分类
这里使用比较经典的鸢尾花数据,来做KNN分类。API为最基本的KNeighborsClassifier。
2020-04-19 17:19:10
5418
2
原创 机器学习(聚类十一)——不同聚类算法在不同数据分布情况下的聚类效果
至此聚类相关的内容告一段落,前面十篇博客介绍了常见的几种聚类算法,也加入了一些代码实现。这篇博客来一个汇总的实例,分别创建圆形数据、月牙形数据、聚团数据以及随机数据,并测试不同数据在各种不同聚类算法中的聚类效果以及消耗时间。
2020-04-15 18:50:52
3466
原创 机器学习(聚类十)——谱聚类及代码实现
谱聚类是基于谱图理论基础上的一种聚类方法,与传统的聚类方法相比:具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。(但效率不高,实际工作中用的比较少)
2020-04-15 14:51:24
9776
1
原创 机器学习(聚类九)——密度聚类(DBSCAN)算法案例
这篇博客使用scikit的相关API创建模拟数据,然后使用DBSCAN密度聚类算法进行数据聚类操作,并比较DBSCAN算法在不同参数情况下的密度聚类效果。
2020-04-14 20:51:19
3675
原创 机器学习(聚类八)——密度聚类
这篇博客介绍另一种类型的聚类算法——密度聚类。密度聚类方法的指导思想:只要样本点的密度大于某个阈值,则将该样本添加到最近的簇中。这类算法可以克服基于距离的算法只能发现凸聚类的缺点,可以发现任意形状的聚类,而且对噪声数据不敏感。但是计算复杂度高,计算量大。常用算法有:DBSCAN 和 MDCA。
2020-04-14 14:25:42
4591
原创 机器学习(聚类七)——层次聚类的优化算法
上篇博客介绍的层次聚类,尤其是AGNES这一传统的层次聚类算法。这篇博客介绍层次聚类的优化算法:BIRCH算法(平衡迭代削减聚类法),以及对BIRCH优化的CURE算法(使用代表点的聚类法)。
2020-04-13 20:34:03
6620
1
原创 机器学习(聚类六)——层次聚类
这篇博客开始另外一种聚类——层次聚类,层次聚类和K-Means是同一类的,属于划分聚类。层次聚类方法对给定的数据集进行层次的分解,直到满足某种条件为止.
2020-04-13 16:28:34
5566
1
原创 机器学习(聚类四)——K-Means的优化算法
K-Means算法是最基本的一种聚类算法,也会有一些问题,前面的博客《机器学习(聚类二)——K-Means》中有介绍,这里就不详细说了。本篇文章介绍一下典型的优化算法。
2020-03-20 09:24:59
7064
1
原创 机器学习(聚类三)——K-Means 代码实现
我们自己产生模拟数据,看一下 k-means 运行情况,主要目的是熟悉一下API接口,并看一下不同的数据分布对 K-Means 会产生什么样的影响。
2020-03-17 15:38:18
4472
原创 机器学习(聚类二)——K-Means
K-means算法,也称为K-平均或者K-均值,是一种使用广泛的最基础的聚类算法,一般作为掌握聚类算法的第一个算法。
2020-03-14 14:20:18
4247
原创 机器学习(聚类一)——概述
从这篇博客开始,介绍一下无监督学习中最典型的代表——聚类。原本是想讲“分类”这一机器学习最重量级的部分,但内容比较多,所以先讲内容比较少的“聚类”。再介绍具体的聚类算法之前,先简要的说说聚类的概念,以及一些知识点的补充。
2020-03-11 10:36:15
3238
原创 机器学习(回归十)——阶段性总结
现在对回归做一下阶段性总结。回归算法,总的来说就是这些,当然还有一些变种,基本上逃不过线性回归和逻辑回归这两种。其实回归家族中还有比较有名的树回归,这里就先不介绍,因为会涉及决策树相关的内容,所以后面讲到决策树时再做介绍。(其实内容特别简单)
2020-02-21 00:39:44
6866
1
原创 机器学习(回归九)——SoftMax回归-代码实现
上篇博客说的是SoftMax回归的基本内容,包括公式推导。这篇博客基于葡萄酒数据进行葡萄酒质量预测模型构建,使用Softmax算法构建模型,并获取Softmax算法构建的模型效果(注意:分成11类)
2020-02-11 19:56:55
9182
1
原创 机器学习(回归八)——Softmax回归
前面博客说的是logistic逻辑回归,这篇博客则是Softmax回归,可以说Softmax回归是logistic回归的一般化(因为logistic是二分类的),适用于K分类的问题。
2020-02-08 23:41:49
4641
原创 机器学习(回归七)——逻辑回归-代码实现
上篇博客说的是逻辑回归的基本内容,包括公式推导,总体来说,和普通线性回归差不多。这篇博客使用逻辑回归基于病理数据进行乳腺癌预测。
2020-02-05 00:01:01
6335
原创 机器学习(回归六)——逻辑回归
逻辑回归本质是分类问题,而且是二分类问题,不属于回归,为何把逻辑回归放到回归系统博客中呢?我们可以这样理解,逻辑回归就是用回归的办法来做分类。它是在线性回归的基础上,通过Sigmoid函数进行了非线性转换,从而具有更强的拟合能力。
2020-02-01 21:25:10
7767
1
原创 机器学习(优化算法三)——坐标轴下降
概述Lasso回归采用的是坐标轴下降法(Coordinate Descent, CD)是一种迭代法,通过启发式的方法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的是,坐标轴下降法是沿着坐标轴的方向去下降,而不是采用梯度的负方向下降。示意图大致如下:坐标轴下降法利用EM算法的思想,在参数更新过程中,每次均先固定 m-1 个参数值,求解剩下的一个参数的局部最优解;然后进行迭代式的更新...
2020-01-31 11:03:02
6332
2
原创 机器学习(优化算法二)——梯度下降-代码实现
上篇博客说的是梯度下降法,主要讲的原理及公式推导,这篇博客来进行代码实现。包括手动模拟梯度下降的方式来进行求解,以及运用自己实现的梯度下降来完成一个线性回归的例子。
2020-01-30 17:19:30
5717
1
原创 机器学习(优化算法一)——梯度下降
像普通线性回归、Ridge回归,通过求导,也就是最小二乘法就可以求解,但Lasso不可以,Lasso通常采用的是坐标轴下降法。除了最小二乘法,还有另外一种方法,也是最常用的:梯度下降法。本文最后,也简要的介绍了一下牛顿法和拟牛顿法。
2020-01-29 16:30:06
5189
原创 机器学习(回归五)——线性回归-局部加权线性回归
前面博客有讲到,样本如果不是线性的可以通过多项式扩展,映射到多维空间来拟合。如此之外,还可以做一个局部加权线性回归(Locally Weighted Linear Regression,LWLR)。...
2020-01-27 21:01:44
9504
原创 机器学习(回归四)——线性回归-正则化
普通的线性回归往往拟合效果不好,比如图形是曲线的形式,可以做一个多项式扩展,变到高维空间。也可以说多项式扩展能解决线性回归模型欠拟合的情况。但多项式的阶数如果太高,就会导致过拟合的情况,也就是训练集上特别好,测试集不太理想。对于过拟合可以使用L1或L2来解决,也就是在J(θ) 的基础上把模型的复杂度加上,如岭回归。
2019-12-26 15:09:16
7355
原创 机器学习(回归三)——线性回归-多项式扩展
前两篇博客介绍的是线性回归,线性回归的一个问题是有可能出现欠拟合现象,解决欠拟合其中的一个方法是本文的多项式扩展,还有一个是后面的博客会介绍的局部加权线性回归(Locally Weighted Linear Regression,LWLR)。
2019-12-20 17:09:48
4798
1
原创 机器学习(回归二)——线性回归-最小二乘-代码实现
本篇内容本来想在写在上篇博客中的,那样篇幅过长,就单独提出来了。本篇文章采用两种方式实现线性回归,一种是使用scikit-learn。而通过上篇博客,我们已经知道了最小二乘法求解线性回归参数,所以完全可以自己手动实现。
2019-12-07 00:33:33
12360
5
原创 机器学习(回归一)——线性回归-最小二乘
从这篇博客开始将介绍机器学习中的比较重要的内容——回归,期间会穿插着涉及到的知识点,如正则化。本篇是回归大家族中最简单的一种——线性回归,采用最小二乘法来求得最优解。
2019-12-06 16:37:23
17638
原创 机器学习(概述二)——开发流程
在具体的机器学习算法之前,先来从宏观上介绍一下机器学习的开发流程,这样能对机器学习有个整体认识。总的来说,分为数据收集、数据处理、模型构建、模型测试评估、投入使用(模型部署与整合)、迭代优化等。对于数据处理部分也叫特征工程,有的时候会分成数据清洗和特征工程。
2019-06-05 02:12:00
13834
1
原创 机器学习(概述一)——定义
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
2019-05-28 16:18:17
16213
原创 RocketMQ(八)——Pull Or Push
在前面的博客已经提到,在RocketMQ中Consumer分为2类:Push Consumer、Pull Consumer。以前的例子都是Push Consumer,接下来,介绍下Pull Consumer。
2018-04-22 12:02:09
5063
1
原创 RocketMQ(七)——Transaction Message(事务消息)
本文介绍RocketMQ提供的第三种类型的消息——Transaction Message(事务消息)。
2018-04-22 12:01:49
6036
2
原创 RocketMQ(六)——Order Message(顺序消息)
RocketMQ提供了3种模式的Producer:NormalProducer(普通)、OrderProducer(顺序)、TransactionProducer(事务),对应的分别是普通消息、顺序消息和事务消息。在前面的博客当中,涉及的都是NormalProducer,调用传统的send方法,消息是无序的。接下来,看看顺序消费。
2018-04-22 12:00:58
8858
4
原创 RocketMQ(五)——消费模式
RocketMQ的消费方式有2种,在默认情况下,就是集群消费,也就是消息的负载均衡消费。另一种消费模式,是广播消费。广播消费,类似于ActiveMQ中的发布订阅模式,消息会发给Consume Group中的每一个消费者进行消费。
2017-08-26 18:28:49
27988
4
原创 RocketMQ(四)——消息重试
对于MQ,可能存在各种异常情况,导致消息无法最终被Consumer消费掉,因此就有了消息失败重试机制。很显示,消息重试分为2种:Producer端重试和Consumer端重试。
2017-08-17 16:11:39
25297
3
iris.data.zip
2020-04-19
信贷数据_crx.data.zip
2020-02-21
winequality.zip
2020-02-09
breast-cancer-wisconsin.zip
2020-01-30
household_power_consumption_1000.zip
2019-12-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人