
数据分析
Renirvana
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
K-NN分类学习模型实现手写数字分类
机器学习算法中的监督学习分为分类和回归两类。分类机器学习算法比较常用且易于理解。本文就从最简单的K-NN( k-Nearest Neighbor )分类算法开始,来了解机器学习模型的创建过程。K-NN算法概述K-NN也称为K-近邻算法,通过测量不同特征值之间的距离进行分类。K-NN算法的工作原理是:首先准备一个已经分类的训练数据集,这个数据集的分类结果已知;其次,对于一个没有分类的新数据,将...原创 2019-11-17 20:40:05 · 590 阅读 · 0 评论 -
分类机器学习模型的评估方法及性能度量
当我们创建一个机器学习模型,然后通过该模型输出结果,那我们会不会直接使用这个结果呢?如果你的答案是:会使用,那你对这个结果完全认可吗?如果你的答案是否定的,那你对这个结果有哪些疑问呢?本文从模型评估的方法和性能的度量两个方面来解答以上的疑问,本篇文章主要讨论分类学习模型的评估与性能度量。模型的评估方法我们创建的机器学习模型都要通过训练数据来训练模型,为了检测学习模型是否符合我们的要求,就...原创 2019-11-17 12:30:13 · 1772 阅读 · 1 评论 -
数据的描述性统计
对数据的描述分为三个维度,分别是:数据的集中趋势、数据的离中趋势和数据的分布形态。数据的集中趋势描述数据集中趋势的指标有众数、中位数和平均数,其中平均数又分为算数平均数、加权平均数和几何平均数众数数据集合中出现次数最多的数值被称为众数。如果一个数据集合中,只有一个数值出现最多,那么这个数值就是该数据集合的众数。众数表示数据集合的数据集中趋势。例如某个班级有10个学生,这些学生的数学成绩...原创 2019-07-21 18:03:37 · 2968 阅读 · 0 评论 -
数据的描述性统计-python实现
数据的集中趋势众数某个班级学生生的数学成绩集合为{87,75,95,87,70,92,87,64,98,87} ,那么该班级数学成绩的众数为:data = [87,75,95,87,70,92,87,64,98,87]##众数def mode(list): d = {} for i in list: if i in d: d[i] +=1; else: d[...原创 2019-07-28 21:24:05 · 1318 阅读 · 0 评论 -
使用python实现正态分布检验
本次的正态分布检验的数据描述为What’s Normal? – Temperature, Gender, and Heart Rate中的数据,其中数据源中包含体温、性别和心率三个数据。这次我们选择文章中的一个问题来实现,即样本的中的体温是否符合正态分布。正态性检验通过样本数据来判断总体是否服从正态分布的检验称为正态性检验。以下的数据为了方便起见,data.txt中只包含了体温一列。1、通...原创 2019-08-12 07:27:35 · 12349 阅读 · 2 评论 -
参数估计
参数估计包括点估计和区间估计两类。点估计点估计是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。点估计(point estimate)是用样本统计量的某个取值直接作为总体参数的估计值。例如,用样本均值x直接作为总体均值μ的估计值,用样本方差s2直接作为总体方差σ2的估计值。点估计的方法有:矩估计法、顺序统计量法、最大似然法、最小二乘法...原创 2019-09-02 22:09:01 · 7234 阅读 · 0 评论 -
假设检验之p值(probability value)
假设检验与参数估计时统计推断的两个组成部分,它们都是利用样本对总体进行某种推断,但推断的角度不同。参数估计是在总体参数未知的前提下,通过样本统计统计量估计参数的方法,得到总体参数的一个点估计或区间估计。而假设检验是,根据以往的经验先给出总体参数值的一个假设,然后通过现有的样本信息去检验这个假设是否成立。关于假设检验过程中的原假设、备择假设、单侧检验及双侧检验等内容都比较容易理解。这里重点讨论一...原创 2019-09-08 21:09:23 · 16183 阅读 · 1 评论