
数据分析与预处理
文章平均质量分 85
Rookiekk
这个作者很懒,什么都没留下…
展开
-
pandas:数据规范化方法与python实现
这里就不说为什么要做数据规范化了,直接讲几种规范化的方法。有许多规范化的方法,我们将学习种:最大-最小规范化、分数规范化、小数定标规范化。这里令是数值属性,具有个观测值。一、原理1.最大-最小规范化假设和分别为属性的最大值和最小值。最小-最大规范化通过计算 把A的值映射到区间,中的。最小-最大规范化保持原始数据值之间的联系。如果今后的输入实例落在的原...原创 2018-11-09 16:09:47 · 6219 阅读 · 0 评论 -
数据分析:度量数据散布的四分位数
假设属性X的数据以数值递增序排列。分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。4-分位数是3个数据点,他们把数据划分成4个相等的部分,使得每部分表示数据分布的四分之一。通常称它们为四分位数。四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作,是第25个百分位数。第3个四分位数记作,是第75个百分位数。第1个和第3个四分位数之间的距离是散布的一种...原创 2018-11-12 22:08:36 · 3878 阅读 · 0 评论 -
pandas: DataFrame在数据处理时一些常用的操作汇总
对自己在数据处理中经常使用却经常忘记的一些操作汇总。我用的多,大家应该用的也很多,有需要的可以转载follow。1.dataframe数据筛选:loc,iloc,ix,at,iatloc:需要用行列的标签进行索引。iloc:需要用行列索引进行索引。ix:功能更强大一些,结合了以上两种方法,既可以用标签,又可以用索引。at:根据指定行index及列label,快速定位DataFr...原创 2018-11-13 16:58:33 · 7441 阅读 · 1 评论 -
dataframe进行groupby后画图坐标轴刻度问题
首先看我们要用到的画图函数:DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None,sharey=False, layout=None, figsize=None, use_index=True, title=None, grid=None,legend=True, style=None,...原创 2018-11-21 15:41:18 · 8105 阅读 · 1 评论 -
pandas:数据类型的转换
今天做机器学习实验,我们查看数据类型把类别换成我们需要的合适的类别,为后边的处理做准备。把类别category类型转换成dummy/indicator变量。首先介绍get_dummies():pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, dro...原创 2018-12-15 14:46:09 · 3647 阅读 · 0 评论 -
pandas:get_dummies()与pd.factorize()用法与区别
1.get_dummies()pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None,sparse=False, drop_first=False):Convert categorical variable into dummy/indicator variables>&g...原创 2019-01-23 21:59:01 · 1966 阅读 · 0 评论 -
pandas:apply(),applymap(),map()
自己总结一下:1.apply()Series.apply:For applying more complex functions on a Series。对Series的值调用函数。可以是ufunc(一个适用于整个系列的NumPy函数)还是一个只对单个值有效的Python函数。>>> series = pd.Series([20, 21, 12], index=...原创 2019-01-21 21:18:33 · 305 阅读 · 0 评论