
数据分析与处理
zhuiqiuuuu
这个作者很懒,什么都没留下…
展开
-
建模那点事儿(下)
本篇文章多图,请谨慎打开。文首声明:此文中的所有数据均为个人在14年初收集而来,不保证其有效性,请勿使用该数据进行商业活动。再声明:这个模型是我两年前做的东西了,有一些细节可能因为记忆问题有错误,各位有看不懂的地方请直接问,我尽量解答。上一篇我写了个建模的流程,有过建模经验的人自然懂,没有经验的各位也不要着急,这次我以一个真实模型为例,给大家详细讲述建模的各个步骤。照例转载 2018-01-13 16:07:16 · 638 阅读 · 0 评论 -
建模那点事(下)
首先向各位致歉,近期公司里的事情多到每天几乎都是当天睡当天起,没什么时间写专栏,等这一段忙过去,我会多写几篇给大家补上 :D上期文章里已经预告过了,这次的内容是建模。为啥我作为一个数学能力并不强的人要在这献丑讲建模的事呢?其实我的目的很简单,就是为了告诉大家一个事实:数据分析中的建模,并没有想象中那么高深莫测,人人都有机会做出自己的模型。一、从数据分析的定义开始维基百科对数据分转载 2018-01-13 16:09:43 · 462 阅读 · 0 评论 -
数据清洗的一些梳理
https://zhuanlan.zhihu.com/p/20571505 欢迎转载到个人朋友圈,转载时请带原文链接,公众号和其他媒体转载前请私信联系本人获取授权)首先对@MayaG表示感谢,这篇文章是被你提的问题激发出的灵感,非常感谢~数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80转载 2018-01-13 16:12:16 · 1581 阅读 · 0 评论 -
数据分析
70%以上的数据报告,使用基本的描述统计方法(均值,分位数,同环比,变化趋势,透视/下钻等)即可解决问题。但有时候需要对已有数据做一些更深度的挖掘(如数据库营销的人群划分,市场研究的竞品分析,从数据出发的销售额预测等),这时就需要建立数据挖掘模型,也就是所谓的“建模”。建模过程要充分的迭代,评估每次迭代结果时要从方法和业务两个方面进行。写在报告中时,通常要提供充足的模型信息,不能只给结果,但对原创 2018-01-13 16:26:26 · 400 阅读 · 0 评论 -
共用y轴的双图形绘制
我数据分析的时候主要是stacked bar、bar和line形式的放在一张图上。stacked bar若用matplotlib实现的话会比较复杂(多组) 先上图吧 def plot_stacked_bar(left_data, right_data): width = .3 axe = plt.subplot(111) axe = left_data.plot(kind=...转载 2018-06-10 13:49:59 · 966 阅读 · 0 评论 -
一种异常值检测方法、原理 (基于箱线图)
先介绍使用到的方法原理,也就是一种异常检测的方法。 首先要先了解箱线图。箱线图箱线图(Boxplot)也称箱须图(Box-whisker Plot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。 ——MBAlib 箱线图先看一下什么是箱...转载 2018-09-16 11:36:51 · 21295 阅读 · 3 评论 -
pandas的scatter_matrix散布矩阵图的理解
Q: 如何理解问题3中给出的图?如何分析关联性、变量分布?A: 这张图分为两部分:对角线部分和非对角线部分。 对角线部分: 核密度估计图(Kernel Density Estimation),就是用来看某 一个 变量分布情况,横轴对应着该变量的值,纵轴对应着该变量的密度(可以理解为出现频次)。 非对角线部分:两个 变量之间分布的关联散点图。将任意两个变量进行配对,以其中一个为横坐标,另一个...转载 2018-09-16 11:44:15 · 5495 阅读 · 0 评论 -
如何处理机器学习中的异常值
在机器学习中进行数据处理往往会遇到极端异常值,是否删除极端异常值往往会影响到最终模型的准确性。找到异常值以后,判断是否需要移除是根据我们的目标而定。异常值的几种情况如果我们只是要找到人为错误导致的点,大可直接移除; 如果移除异常值并不会改变结果,仅仅会改变假设(assumptions),那么也可以选择移除异常值,但是应该记录下来。无论是否存在异常值都不会改变回归线。如果异常值会...转载 2018-09-16 12:24:48 · 3311 阅读 · 0 评论 -
numpy的ndarray与pandas的series和dataframe之间互转
在大数据分析中,比较常用的两个数据分析包就是numpy和pandas,而pandas正是基于numpy构建的含有更高级数据结构和工具的数据分析包,在金融领域应用更是广泛。在实际的工程中,经常遇到的问题就是numpy的ndarray数据结构与pandas的series和dataframe数据结构之间的互相转换问题。现在我分3种情况,在python程序中列一下互转的情况,应该比较全面了。情况1:输...转载 2018-09-16 16:11:13 · 903 阅读 · 0 评论