
Data Ming
一个两个n多个
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
异常值分析方法
异常值分析原理异常值指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点。异常值分析就是要将这些离群点找出来,然后进行分析。常见的分析方法有三种:简单统计量分析、3σ 原则、箱型图分析。简单的介绍一下简单统计量分析和3σ 原则,本文主要还是介绍箱型图分析,这是一个比较通用的方法。简单统计量分析主要就是看看最大值和最小值等等,判断其是否超过了范围,有明显的错误。3σ 原则则是在数据服...原创 2019-07-16 12:33:49 · 5559 阅读 · 0 评论 -
拉格朗日插值法、数据规范化
拉格朗日插值法拉格朗日插值法是插值法中的一种,是用来进行缺失值处理的,将数据集中的未知值,通过拉格朗日插值法推算出来。这里的数学知识就不介绍了,主要介绍在代码中怎么应用。下面以某餐厅一段时间的销售量的数据集来演示使用方法:首先最开始的数据如下:可以看到2月14号这一天的数据是缺失了的,而且还有一部分数据明显是异常的,下面我们就要将缺失的值补上,以及将异常值也变为空补上。import p...原创 2019-07-18 21:38:18 · 853 阅读 · 0 评论 -
连续属性离散化方法
离散化方法由于一些数据挖掘的算法,主要是一些分类算法,要求数据是分类的形式即是离散的。所以就需要将连续的属性变换为分类的属性,即连续的变为离散的。常用的离散化方法有以下三种:等宽法、等频法、基于聚类分析的方法。下面来依次简单介绍一下三种方法的原理:等宽法主要就是将属性的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,可能会导致一些区间数据少,一些区间数据多的情况。等频法主要是...原创 2019-07-18 21:52:59 · 6471 阅读 · 0 评论 -
数据特征分析
统计量分析用统计指标对定量数据进行统计分析,通常从两个方面进行分析:集中趋势、离中趋势。1、集中趋势(个体集中趋势地度量)通常从以下几个指标来衡量:均值、中位数、众数。2、离中趋势(个人离开平均水平的度量)通常使用标准差、四分位间距、极差、变异系数等。下面简单用一个餐饮销量数据来进行一下统计量分析:#餐饮销量数据统计量分析import pandas as pd#获取数据cateri...原创 2019-07-17 16:30:35 · 627 阅读 · 0 评论 -
航空公司客户价值分析(下)
模型训练将之前处理好的数据拿来就进行模型训练,这里用的聚类算法为K-Means算法。K-Means算法主要就在于k=n_cluster参数的确定上面,到底是将k确定为几能进行更好的分类了。这里我采用了SSE手肘法来确定k值,SSE值代表了每一个数据点离聚类中心的距离的评分,即为误差平方。当k小于真实聚类数时,随着k增大数据之间的聚合度会增加,SSE下降幅度会很大,当k快达到真实聚类值时,SSE下...原创 2019-07-25 22:12:38 · 1574 阅读 · 2 评论 -
航空公司客户价值分析(上)
本案例来自《Python数据分析与挖掘实战》一书,相关数据集可以在本书的电子资料中找到,下面的一些内容很多都是吸收了书上的内容然后加以改变。简单的介绍一下挖掘的背景与目标,挖掘的背景就是航空公司面临着客户流失、竞争力下降等问题,目标是需要建立一个合理的客户价值评估模型,对客户进行分类区分有价值客户与无价值客户,从而来重新分配资源。本次项目的全部代码和数据集均在github上有,地址为:https...原创 2019-07-25 21:31:18 · 1228 阅读 · 0 评论 -
航空公司客户流失分析
背景与分析方法本文是接着航空公司客户价值分析,这是拓展思考的部分,这里简单的将它做了一下。在客户管理中,客户流失也是一个十分重要的问题。客户流失对利润增长造成的负面影响非常大,客户与航空公司之间的关系越长久,给航空公司带来的利润就回越高。所以流失一个客户,比获得一个新客户对公司的损失更大。客户流失分析针对老客户进行分析预测,这里的老客户定义为飞行次数大于6次的客户。用航空公司客户信息数据来进行...原创 2019-07-27 09:47:01 · 8032 阅读 · 1 评论