
机器学习
文章平均质量分 94
不休的turkeymz
一名乱七八糟的开发
展开
-
LDA主题模型的原理和建模
目录什么是LDA主题模型背景知识贝叶斯理论gamma函数多个分布博鲁尼分布二项分布多项分布beta分布Dirichlet 分布开始了解LDAPython建模什么是LDA主题模型首先说明一下什么是主题模型。这里的主题模型是把一份份不同的文本内容通过某种方式来找到这些文本对应的主题。打个比方:我有一堆新闻类文档,但我想将这对文档进行主题分类。到底是娱乐?军事?政治?等主题。这时候就使用到主题模型。而这里的LDA和特征工程的LDA不一样。全名Latent Dirichlet Allocation,是一款基于原创 2021-02-05 18:00:26 · 4971 阅读 · 1 评论 -
【分类算法】K-NN
目录K-NN的定义K-NN的定义今天,我们来分享一个“街知巷闻”级别的分类算法 —— K-NN。相信提到这个词的时候小伙伴们都有:噢~是它。那么到底什么是K-NN呢?看过过去文章的都知道,我比较喜欢拆解算法名字来初步理解算法是做什么的。K-NN,全称叫做:K-Nearest Neighboors,中文翻译:K-最近的 邻居们。假设我们的数据如下图,有很多个点。首先解释最近的,看到远近就应该想...原创 2020-01-20 17:33:47 · 976 阅读 · 0 评论 -
【分类算法】决策树(三)
回顾上文这篇文章应该是机器学习算法决策树系列的最后一篇了。前两篇文章我们分别讲了决策树的基本概念、构造过程、算法推导以及手动构建决策树。有需要回顾的效果版可以点击链接【分类算法】决策树(一)【分类算法】决策树(二)决策树的剪枝...原创 2020-01-19 16:08:59 · 569 阅读 · 0 评论 -
【分类算法】决策树(二)
目录上集回顾决策树的过程上集回顾今天我们继续学习决策树的相关知识。这里首先回顾一下上期的知识。在上一期里面我们主要讲到了:什么是决策树决策树的训练过程熵和Gini系数的计算这里如果忘记或者忘记这些知识的可以去回顾一下。特别是熵和Gini系数的计算!!!因为接下来我将围绕他们去手动构建一棵完整的决策树。决策树的过程这里首先提一下决策树的构造思路。随着树深度的增加,节点的熵值要迅速...原创 2020-01-18 14:53:00 · 713 阅读 · 0 评论 -
【分类算法】决策树(一)
定义决策树是一机器学习当中经典的算法。通过名字理解,可以分为决策、树。所谓的决策,就类似于一小部分分类,把数据样本分成哪一类。而树,就是这么一堆小的分类器最终组成一个树形结构。最后得到我们今天学习的决策树算法。所以决策树是由多个支点组成的分类算法,而每一个支点都是一个小型的分类器。它属于机器学习中的监督学习,所以这个算法需要带标签的数据才能完成。稍微举一个例子,假设一个班级学生数据,我们可以通...原创 2020-01-14 22:12:47 · 992 阅读 · 0 评论 -
【分类算法】逻辑回归
逻辑回归是一个监督学习中的分类算法。他的核心思想就是通过Sigmoid函数的引入,使一条线性回归的线变成一个二分类问题。所以对于Sigmoid函数的理解和整个推导式逻辑回归的核心。原创 2019-12-22 15:07:28 · 1071 阅读 · 0 评论 -
【分类算法】什么是分类算法
目录定义分类与聚类分类过程方法定义分类算法的本意就是对我们的数据分进行分类。把它们分到已知的每一个类别。就像一个篮子里面有很多橙子和苹果,机器会通过我们训练出来的模型,对篮子里的水果进行分类。比如:红色 = 苹果,橙色 = 橙子。若要让机器直到这种规则,我们就需要一定量的带标签的“红/橙”标签的数据。然后让模型学习,噢,原来是这种分类规则。所以分类算法往往需要“带标签”的数据。它是一个监督学...原创 2019-12-14 11:47:10 · 12687 阅读 · 0 评论 -
【回归预测】线性回归
线性回归就是给定一个确定的函数公式,当我们有新的样本进来的时候我们可以通过这个公式预测出该样本的结果。线性回归最常见的例子就是房价的预测。就如我第一篇文章说的,当我们得到一个面积与房价的关系方程的时候。我们可以预测任意面积房子的价格。原创 2019-12-07 12:28:36 · 2939 阅读 · 0 评论 -
机器学习知识分享目录
算法聚类算法什么是聚类层次聚类K-MeansK-MediodsDBSCAN原创 2019-12-07 10:07:18 · 1341 阅读 · 0 评论 -
【聚类算法】DBSCAN详解
今天,我们一起学习聚类算法分享章节中中的最后一类 —— 密度聚类算法。而在密度聚类里面最具代表性的是DBSCAN。(Density-Based Spatial Clustering of Applications with Noise)对应的中文翻译就是基于密度的噪点空间聚类法。名字是不是有点拗口?其实没关系。你只要记住它是基于点密度的聚类方法就可以了。原创 2019-12-07 10:00:15 · 2443 阅读 · 0 评论 -
【聚类算法】K-Mediods算法详解
PAM算法其实就是簇围绕中心点。所以也可以称为中心点围绕划分法。初步认识算法意思之后,接下来我们将加深学习这个算法。原创 2019-11-25 22:30:24 · 18351 阅读 · 5 评论 -
【聚类算法】K-Means算法详解
上期讲聚类算法的时候我们有提到过,聚类算法有很多种。其中一种层次聚类我已经分享过了。需要的请看我另外一篇文章。而几天,我们将聚类算法中的另外一个算法,也是用得最多的算法。它属于众机器学习算法中的必学知识。就如同线性回归、逻辑回归一样。那么BB了这么久,它到底是谁了?没错,就是K-Means算法。没错,K-Means是非常常见的聚类算法,所以它数以非监督学习的算法。这个算法最大的特点是简单,好理解,运算速度快,但是只能应用于连续型的数据。要理解K-Means算法,你可以把它拆分成2部分。什么是K?什么是Me原创 2019-11-23 16:32:11 · 2333 阅读 · 0 评论 -
【聚类算法】层次聚类算法
定义这个算法可以分为两部分理解,层次与聚类。首先聚类我在另一篇文章有讲过。具体请跳转【什么是聚类】。关于层次,就是把数据集聚成很多类以后,然后按照他们的距离构造成一个楼梯形状的簇数据。层次聚类有两种聚类的方式:Agglomerative - 从下至上的聚类将每一个数据样本作为一个独立的簇。在每一次迭代中将相似的簇合并起来,知道整份数据集结成成一个簇或多个簇Divsive - 从上...原创 2019-11-19 21:37:25 · 4859 阅读 · 0 评论 -
【聚类算法】什么是聚类
目录定义聚类 & 分类聚类的流程方法总结定义聚类分析或聚类算法就是通过一些方法或手段使数据集集聚成不同的类别,或者叫:簇。簇内部每一个单位都是相似的。簇与簇之间都是不相似的。但是聚类其实是一种思想,它不是一种具体的方法。这里千万不要搞混。但是可以实现聚类的算法有很多种。我们通常就使用这些算法来实现聚类的。比如 K-Means就是最为经典的聚类算法。在接下来的文章里我会分享部分经典的...原创 2019-11-18 21:28:54 · 7319 阅读 · 1 评论 -
机器学习笔记(1.基础入门)
目录为什么要写博客机器学习相关常用Python库为什么要使用Python常用类库之numpy常用类库之pandas常用类库之Matplotlib常见类库之Seaborn机器学习基本理解新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注...原创 2019-06-12 20:48:51 · 382 阅读 · 0 评论