
数据处理
泛泛之素
君子不器
展开
-
python数据预处理 :数据降维
数据为何要降维数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此,大多数情况下,当我们面临高维数据时,都需要对数据做降维处理。数据降维有两种方式:特征选择,维度转换特征选择特征选择指根据一定的规则和经验,直接在原有的维度中挑选一部分参与到计算和建模过程,用选择的特征代替所有特征,不改变原有特征,...原创 2018-11-20 21:16:23 · 16609 阅读 · 10 评论 -
python数据分析:关联规则学习(Association rule learning)
何为关联规则学习关联规则学习是一种基于规则的机器学习方法,用于发现大型数据库中变量之间的有趣关系。它旨在使用一些有趣的度量来识别在数据库中发现的强规则。这种基于规则的方法在分析更多数据时也会生成新规则。假设数据集足够大,最终目标是帮助机器模拟人类大脑的特征提取和新未分类数据的抽象关联能力。基于强有力规则的概念,Rakesh Agrawal,TomaszImieliński和Arun Swami...原创 2018-12-01 14:58:03 · 13223 阅读 · 10 评论 -
python数据分析:聚类分析(cluster analysis)
何为聚类分析聚类分析或聚类是对一组对象进行分组的任务,使得同一组(称为聚类)中的对象(在某种意义上)与其他组(聚类)中的对象更相似(在某种意义上)。它是探索性数据挖掘的主要任务,也是统计 数据分析的常用技术,用于许多领域,包括机器学习,模式识别,图像分析,信息检索,生物信息学,数据压缩和计算机图形学。聚类分析本身不是一个特定的算法,而是要解决的一般任务。它可以通过各种算法来实现,这些算法在理解...原创 2018-11-30 16:43:24 · 93913 阅读 · 3 评论 -
python数据预处理 :数据离散化
何为离散化:一些数据挖掘算法中,要求数据是分类属性形式。因此常常需要将连续属性的数据通过断点进行划分最后归属到不同的分类,即离散化。为什么要离散化:调高计算效率分类模型计算需要给予距离计算模型(k均值、协同过滤)中降低异常数据对模型的影响图像处理中的二值化处理ps:离散化也可以用于已经离散化的数据,就是值域的重新划分,一切都是看业务需要连续数据离散化方法:分位数法:使用四分...原创 2018-11-26 20:17:49 · 15651 阅读 · 0 评论 -
python数据分析:异常检测分析(Anomaly detection analysis)
何为异常检测在数据挖掘中,异常检测(anomaly detection)是通过与大多数数据显着不同而引起怀疑的稀有项目,事件或观察的识别。通常情况下,异常项目会转化为某种问题,例如银行欺诈,结构缺陷,医疗问题或文本错误。异常也被称为异常值,新奇,噪声,偏差和异常。数据异常可以转化为各种应用领域中的重要(且常常是关键的)可操作信息。 例如,计算机网络中的异常流量模式可能意味着被黑客窃取的计算机在...原创 2018-12-02 13:45:28 · 8985 阅读 · 0 评论 -
python数据预处理 :数据相关性
何为相关性:相关性分析是指对具备相关性关系的变量进行分析,从而衡量变量间的相关程度或密切程度。相关性可以应用到所有数据的分析过程中,任何事物之间都是存在一定的联系。相关性用R(相关系数)表示,R的取值范围是[-1, 1]相关和因果:相关并不是因果,例如商品销售活动时,通常都会以较低的价格进行销售,以此来实现较高的商品销售量;随着商品销售量的提升,也给线下物流配送体系带来了更大的压力,会导致商...原创 2018-11-24 19:51:46 · 7363 阅读 · 0 评论 -
python数据预处理 :数据标准化
何为标准化:在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数...原创 2018-11-25 17:14:41 · 36616 阅读 · 2 评论 -
python数据预处理: 使用pandas 进行数据清洗
问题:介绍数据清洗方法。。解答:所谓数据清洗主要处理的是数据中的缺失值、异常值和重复值:缺失值处理数据缺失值指由于各种原因导致数据中存在的空缺值:数据库中的null,python返回对象none,pandas或numpy中的nan;另空字符串是有实体的不算是缺失值,缺失值没有实体。处理数据缺失值一般有4中方法:丢弃补全真值转化不处理丢弃如果缺失的数据量不大,且对其丢弃对...原创 2018-11-17 16:33:58 · 5474 阅读 · 0 评论 -
python数据预处理: 字符变量独热编码(one-hot encoding)
许多的数据采样中会有很多以以字符串形式出现的数据,这样的数据没有办法直接跟其他数值变量合并成向量,这些值一般是分类数据或是顺序数据。分类数据:分类数据指某些数据类别的只能归于某一类非数值型数据,例如男、女。分类数据中的值没有明显高低好坏之分,只是由来区分两个或多个具有相同或相当价值的属性。顺序数据:顺序数据只能归于某一有序类别的非数值型数据,例如用户的价制度分为高、中、低。在顺序数据中,有明...原创 2018-11-19 22:55:29 · 9244 阅读 · 9 评论 -
python数据预处理 :数据抽样
何为数据抽样:抽样是数据处理的一种基本方法,常常伴随着计算资源不足、获取全部数据困难、时效性要求等情况使用。抽样方法:一般有四种方法:随机抽样 直接从整体数据中等概率抽取n个样本。这种方法优势是,简单、好操作、适用于分布均匀的场景;缺点是总体大时无法一一编号系统抽样 又称机械、等距抽样,将总体中个体按顺序进行编号,然后计算出间隔,再按照抽样间隔抽取个体。优势,易于理解、简便易行。缺点是...原创 2018-11-22 17:10:15 · 6415 阅读 · 2 评论 -
python数据预处理 :数据共线性处理
何为共线性:共线性问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低,另外,过多无关的维度计算也很浪费时间共线性产生原因:变量出现共线性的原因:数据样本不够,导致共线性存在偶然性,这其实反映了缺少数据对于数据建模的影响,共线性仅仅是影响的一部分多个变量都给予时间有共同或相反的演变趋势,例如春节期间的网络销售量和销售额都相对与正常时间有下降趋...原创 2018-11-23 22:03:38 · 17364 阅读 · 0 评论 -
python数据预处理 :样本分布不均(过采样和欠采样)
何为样本分布不均:样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征值的覆盖,此时属于严重的样本分布不均衡。为何要解决样本分布不均:样本分部不均衡的数据集也是很常见的:比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。样本不均衡将导致样本量少的分类所包含的特征过少,很难从中提取规律,即...原创 2018-11-21 16:52:24 · 27153 阅读 · 3 评论 -
python数据分析:时间序列分析(Time series analysis)
何为时间序列分析:时间序列经常通过折线图绘制。时间序列用于统计,信号处理,模式识别,计量经济学,数学金融,天气预报,地震预测,脑电图,控制工程,天文学,通信工程,以及主要涉及时间测量的任何应用科学和工程领域。时间序列分析包括用于分析时间序列数据的方法,以便提取有意义的统计数据和数据的其他特征。时间序列预测是使用模型根据先前观察到的值预测未来值。虽然回归分析通常采用的方式是测试理论,即一个或多个...原创 2018-12-06 14:01:20 · 19323 阅读 · 13 评论