
统计学
文章平均质量分 95
蓝翔厨师长
AI量化算法工程师
展开
-
聚类算法(EM,Expectation Maximization)原理及聚类(GMM,GaussianMixture)实战——python
聚类算法原理简介(EM)EM聚类原理如其名称所示,EM聚类主要是两个步骤,一是期望步骤(Expectation);二是最大化步骤(Maximization)。thinking:一个西瓜分给两个人,怎么才能切的合理?第一步是随机切一刀,观察预期,这就是期望步骤(Expectation);第二步是如果存在偏差,需要重新评估如何切,即重新评估参数,这就是最大化步骤(Maximization)。EM算法是一种求解最大似然估计的方法,通过观测样本,来找出样本的模型参数。通过EM算法中的E步来进行观察,然后通过原创 2020-11-03 18:39:55 · 2729 阅读 · 0 评论 -
K_means聚类python实战
K_means工作原理step1:随机选择K个点作为类(簇)的中心点,K为重要的超参数,选择k值可用手肘法;step2:将每个点分配到最近的类中心点,并重新计算每个类的中心点;step3:重复step2,直到类中心不发生变化,或者迭代次数到了你设置的值。K_means调用sklearn工具来实现step1:导入数据;step2:数据预处理;step3:手肘法选用k值;step4:聚类结果输入,最后再人工判断每个簇的特性。import pandas as pdfrom sklearn.cl原创 2020-10-26 16:14:00 · 428 阅读 · 0 评论 -
机器学习之朴素贝叶斯分类器三
常用的朴素贝叶斯工具有三个,sklearn下的BernoulliNB(伯努利朴素贝叶斯)、GaussianNB(高斯朴素贝叶斯)、MultinomialNB(多项式朴素贝叶斯)。伯努利朴素贝叶斯:用在特征变量为0、1分布。查看模型的属性:class_count_ :训练样本中每种类别对应的样本个数feature_count_:每种类别中各个特征出现的次数高斯朴素贝叶斯:用在特征变量是连续值的情况查看模型属性:class_count_ :训练样本中每种类别对应的样本个数class_prior_原创 2020-10-25 18:22:27 · 452 阅读 · 0 评论 -
机器学习之朴素贝叶斯(连续值)二
朴素贝叶斯分类器(连续值)某样本如下:问题:身高170,体重130,鞋码42,请问是男是女?当特征为连续值时,直接求条件概率就比较困难。假设特征均为正太分布,即身高、体重、鞋码均为正太分布,正太分布的均值、标准差由样本算出,根据正太分布算出某一个特征的具体值。实现求正太分布中某一值的概率密度,如下:from pandas import DataFramefrom scipy import stats#step1 导入数据data = DataFrame({'身高':[183,182,17原创 2020-10-24 21:49:40 · 1781 阅读 · 1 评论 -
机器学习之朴素贝叶斯(Naive Bayes)一
这里写自定义目录标题贝叶斯分类器原理三个重要知识点训练朴素贝叶斯的过程朴素贝叶斯分类器贝叶斯分类器原理已知样本集,求新样本的分类结果:比较各个分类结果下,哪个后验概率大,后验概率大的便是分类结果三个重要知识点先验概率:通过经验来判断事情发生的概率后验概率:根据事情发生的结果,来推测原因的概率条件概率:指事件A在事件B发生的前提下发生的概率,记为P(A|B)后验概率公式为:(朴素贝叶斯分类器主要运用到的公式)训练朴素贝叶斯的过程step1.给出训练数据step2.计算类别概率和条件概率原创 2020-10-24 19:29:43 · 328 阅读 · 0 评论 -
KNN(K-Nearest Neighbor)k个最近邻分类算法思想及原理
KNN算法思想:一个样本决定分类时,依靠其最近的K样本的分类结果,来确定该样本的分类结果。这就引出了KNN算法的三要素:K值选择、距离度量标准、分类决策规则。距离度量标准:KNN算法的距离度量标准常用的二维空间度量,即欧式距离:距离度量在p维空间的距离公式为:当p= 1时,成为曼哈顿距离:当p = 2时,为欧式距离。当p = 无穷大时:KNN算法一般都用欧式距离,但其他度量距离也可使用。K值选择:K值的选择对整体的算法结果会产生重大影响,K值的选择可以使用“手肘法”,即选用不同的K原创 2020-09-24 20:59:54 · 1080 阅读 · 0 评论 -
决策树—ID3、C4.5、CART
目录 一、决策树模型与学习 1、决策树模型 2、决策树学习 二、特征选择 1、信息增益 2、信息增益率 三、决策树的生成 1、ID3算法 2、C4.5算法 3、CART算法 四、决策树停止分裂的条件 五、连续值和损失值处理 决策树(decision tree)是一种基本的分类与回归方法。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then规则的集合, 也可以认...转载 2020-09-24 19:18:08 · 1378 阅读 · 0 评论 -
三大统计相关系数:Pearson、Spearman秩相关系数、kendall等级相关系数
Pearson(皮尔逊)相关系数皮尔逊相关系数使用频率高,皮尔逊相关系数适用于:(1)、两个变量之间是线性关系,都是连续数据。(2)、两个变量的总体是正态分布,或接近正态的单峰分布。(3)、两个变量的观测值是成对的,每对观测值之间相互独立。Spearman Rank(斯皮尔曼等级)相关系数斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼转载 2020-09-22 19:38:22 · 1572 阅读 · 0 评论