
数据挖掘
文章平均质量分 66
nothing-xianm
这个作者很懒,什么都没留下…
展开
-
聚类算法K-Means++介绍与实例
K-Means++算法介绍K-Means++主要解决初始化种子点的问题,其选择初始种子的基本思想是:初始聚类中心之间相互距离要在K-Means算法基础上引入了更智能的初始化步骤,该步骤倾向于选择彼此相距较远的中心点,这一改进使得K-means算法收敛到次优解的可能性很小。K-Means++算法表明,更智能的初始化步骤所需计算量是值得的,因为他可以大大减少寻找最优解所需运行算法的次数。K-Means算法实现步骤1.取一个中心点C1,从数据集中随机选择一个中心点。2.取一个新中心点Ci,选择一个概率为原创 2021-07-16 21:09:37 · 2572 阅读 · 1 评论 -
零-均值标准化推导过程
正态分布自然界中的很多随机变量都服从或近似服从正态分布,如测量的误差,人群的身高,体重,工厂产品的直径、长度、重量,电源的电压,因此正态分布是实践中应用最广泛的、最重要的分布。标准正态分布若X的密度函数为f(x)=12πe−x22,−∞<x<+∞f\left ( x \right ) = \frac{1}{\sqrt{2\pi }}{e}^{-\frac{x^{2}}{2}} , -\infty <x< +\infty f(x)=2π1e−2x2,−∞原创 2021-07-11 11:27:28 · 1599 阅读 · 0 评论 -
k-means聚类算法实现
聚类算法简介在未知模式识别问题中,通常需要从一堆没有标签的数据中找到其中的关联性。一是要发现数据之间的相似性,也被称为聚类(Clustering);二是要统计数据在空间上的分布,也就是密度估计。聚类可谓无监督学习中最重要的一个作用。聚类的定义聚类是将集中具有相似特性的数据分类组织的过程,聚类技术是一种无监督学习。聚类又称为群分析,是研究样本或指标分类问题的一种统计分析方法。聚类与分类的区别是其要划分的类是未知的,常用的聚类分析法中有系统聚类法、有序样本聚类法、动态聚类法、模糊聚类法、图论聚类法和聚类预原创 2021-07-11 00:06:18 · 543 阅读 · 2 评论 -
中文分词算法—— 基于词典的方法
1、基于词典的方法(字符串匹配,机械分词方法)定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM1》从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。2》查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次转载 2020-06-22 09:02:39 · 3259 阅读 · 0 评论 -
Pandas(一)
Pandas(一)Pandas是什么?核心数据结构数据离散化Pandas是什么?专门用于数据挖掘的开源python库以numpy为基础,借助numpy高效运算的优势基于matplotlib,能够简便的画图核心数据结构pandas具有三大核心数据结构:DataFrame、panel、seriesDataFrame:既有行索引、又有列索引的的二维数组。store_change = np.random.normal(0,1,(10,5))print(store_change)执行后入下图所示,原创 2020-06-14 20:03:20 · 366 阅读 · 0 评论 -
信息熵
熵(entropy,也称信息熵)用来度量一个属性的信息量。假定S为训练集,S的目标属性C具有m个可能的类标号值,C={C1,C2,…,Cm},假定训练集S中,Ci在所有样本中出现的频率为pi (i=1,2,3,…,m),则该训练集S所包含的信息熵定义为:熵越小表示样本对目标属性的分布越纯,反之熵越大表示样本对目标属性分布越混乱。...原创 2020-06-07 14:24:46 · 471 阅读 · 0 评论 -
数据挖掘 - 分类与回归
数据挖掘分类与回归的比较分类和回归都属于监督性学习。那么他们的区别是什么呢?简单来说,我们现在有x和y值,分类的目标y值是属于离散值,而回归的目标y值是连续值。举个栗子, 汽车的不同颜色比如红,黑,白,属于离散值,而今天的气温则是连续值。如果来比较他们的原理,给出几个点,找出拟合性最强的那条线是回归。如下图:给出几个属于两个不同类别的点,找出那条最能把两个类别的点区分出来的线就是分类。如下图:原文链接:https://blog.youkuaiyun.com/weixin_41095510/article/de转载 2020-06-07 08:36:05 · 394 阅读 · 0 评论