
数据分析
一窗星乱银河静
这个作者很懒,什么都没留下…
展开
-
Python分组后求众数的方法
背景平均数,中位数和众数是常用的表示数据水平的统计指标。当我们想要对比不同分组的数据的差异的时候,一般来说会用到平均数,但是平均数容易受到极端值的影响,这时候中位数和众数就是一个比较好的选择。在pandas中,我们可以利用pivot_table函数和groupby函数来求分组统计量。但是这些他们都无法直接求出众数。所以就有了这边文章。方法很简单:方法df = pd.DataFrame({'a':['A','A','A','A','B','B','B','B','B'],'b':[1,1,2,3,1,原创 2020-10-13 12:41:42 · 4528 阅读 · 0 评论 -
数据特征分析技能—— 相关性检验
数据特征分析技能—— 相关性检验 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度 一般常用四种方法: - 画图判断 - pearson(皮尔逊)相关系数 - sperman(斯皮尔曼)相关系数 - Cosine similarity (余弦相关系数)import numpy as np...原创 2018-05-06 22:41:51 · 17875 阅读 · 0 评论 -
数据预处理——归一化标准化
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。 去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上import numpy as npimport pandas as pdimport matplotlib.pyplot as...原创 2018-05-08 17:38:33 · 7950 阅读 · 1 评论 -
统计分析——描述统计之数据水平描述
一组样本数据的数值特征一般来说可以从三个方面来描述:数据的水平(也可以称之为集中趋势或位置度量),反映数据的数值大小数据的差异,反映数据间的离散程度数据的分布形状,反映数据分布的偏度和峰度描述水平的统计量数据水平是指数值大小,描述数据水平的统计量有平均数,分位数,众数,同时这几个统计量也可以用来描述数据的集中趋势度。平均数**简单平均数(simple mean)**的...原创 2018-11-26 21:02:16 · 5438 阅读 · 0 评论 -
Python利用openpyxl来操作Excel(一)
最近一直在做项目里的自动化的工作,为了是从繁琐重复的劳动中挣脱出来,把精力用在数据分析上。自动化方面python是在好不过了,不过既然要提交报表,就不免要美观什么的。pandas虽然很强大,但是无法对Excel完全操作,现学vba有点来不及。于是就找到这个openpyxl包,用python来修改Excel,碍于水平有限,琢磨了两天,踩了不少坑,好在完成了自动化工作(以后起码多出来几个小时,美滋...原创 2018-12-01 00:48:59 · 8530 阅读 · 3 评论 -
python判断孪生质数对(素数对)并计算个数。
很久前在知乎写的一个答案,今天把坑填了,顺便搬过来。让我们定义dn为:dn=pn+1−pn,其中pi是第i个素数。显然有d1=1,且对于n>1有dn是偶>>数。“素数对猜想”认为“存在无穷多对相邻且差为2的素数”。 现给定任意正整数N(<10^5), 请计算不超过N的满足猜想的素数对的个数。而且题目还限制了400ms时间(有没有搞错(╯‵□′)╯︵┻━┻)写出...原创 2018-12-13 23:22:06 · 10611 阅读 · 10 评论 -
python数据可视化seaborn(二)—— 分布数据可视化
这篇文章是Python可视化seaborn系列的第二篇文章,本文将详解seaborn如何探索数据的分布。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns% matplotlib inlinesns.set(context='notebook',font='...原创 2018-12-27 19:20:29 · 9188 阅读 · 1 评论 -
一个Python计算时间的脚本(某月第一天最后一天/上周第一天最后一天等)
因为之前的自动化的工作中几乎每个脚本都要在时间节点运行,比如每周的第一天,每月第一天和最后一天等等。这就要涉及到时间的计算,但是没有现成的包,只能自己写一个(╯‵□′)╯︵┻━┻。用例这个脚本里包含了一般自动化报表会用到的时间节点。时间节点函数方法今天today昨天yesterday()上个月是几月last_month()上月第一天last_m...原创 2019-03-12 20:31:04 · 1086 阅读 · 0 评论 -
python数据可视化seaborn(三)——探索变量之间的关系
python数据可视化seaborn(三)——探索变量之间的关系我们常常想知道变量之间是否存在关联,以及这些关联是否收到其他变量影响。可视化能够帮助我们非常直观的展示这些。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline...原创 2019-03-22 10:15:40 · 9629 阅读 · 1 评论 -
python数据可视化seaborn(四)—— 分类数据可视化
之前的文章关注的是两个变量都是数值变量的情况,当有一个变量是分类变量的时候,我们就需要其他类型的图形来展示分析数据。在seaborn中有多种类型的图形且非常易于上手。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinesns...原创 2019-04-09 18:46:39 · 9058 阅读 · 0 评论 -
R语言中的抽样方法与描述统计函数
抽样方法常见的抽样方法简单随机抽样分层抽样系统抽样# 导入数据# 1 金融 2 建筑 3 外语data <- read.csv("E:\\Github\\code-learning\\R\\data\\第11期资料\\data.csv")# 按照专业和ID排序data <- data[order(data$专业,data$ID),]head(data)...原创 2019-04-26 00:46:55 · 10039 阅读 · 0 评论 -
广告效果聚类分析(KMeans)
前段时间做了一个项目,该客户是来自教育行业,其主要的宣传获客手段就是在各个渠道投放广告,用广告将用户引流至网站。但是广告的渠道非常多,哪些渠道效果很好,哪些效果不好。需要对广告效果分析针对性做广告效果测量和优化工作。我就想到之前学到的KMeans聚类分析广告的方法,在这里整理出来方法思路。供日后参考。import numpy as npimport pandas as pdfrom skl...原创 2019-05-05 18:50:47 · 5641 阅读 · 2 评论 -
数据特征分析技能—— 分布分析
数据特征分析技能—— 分布分析 分布分析法又称直方图法。它是将搜集到的质量数据进行分组整理,绘制成频数分布直方图,用以描述质量分布状态的一种分析方法import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlinedata = pd.read_csv(...原创 2018-04-26 21:06:33 · 6700 阅读 · 5 评论 -
kaggle竞赛:泰坦尼克幸存者预测
kaggle竞赛:泰坦尼克幸存者预测——(一)import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport osimport warningswarnings.filterwarnings('ignore')%matplotlib inline...原创 2018-05-03 18:13:07 · 4423 阅读 · 2 评论 -
数据特征分析技能—— 帕累托分析
数据特征分析技能—— 帕累托分析 又称ABC分类库存控制法,主次因分析法,20/80定律等。 - 一般来说投入产出,努力和报酬之间并不是绝对的线性关系,总有一些关键因素起着至关重要的作用,而帕累托分析就是找到影响事务的关键因素,分清主次。 import numpy as npimport pandas as pdimport matplotlib.pyplot a...原创 2018-05-03 11:18:34 · 3263 阅读 · 0 评论 -
Python数据可视化matplotlib(一)—— 图表的基本元素
Python数据可视化matplotlib(一)—— 图表的基本元素图表创建plt.show()# 图表窗口1 → plt.show()plt.plot(np.random.rand(10))plt.show()# 直接生成图表魔法函数% matplotlib inline 嵌入图表# 图表窗口2 → 魔法函数,嵌入图表%matplotli...原创 2018-03-31 23:42:04 · 4667 阅读 · 0 评论 -
Python数据可视化matplotlib(二)—— 子图功能
Python数据可视化matplotlib(二)—— 子图功能 在matplotlib中,整个图像为一个Figure对象,在Figure对象中可以包含一个或者多个Axes对象,每个Axes(ax)对象都是一个拥有自己坐标系统的绘图区域import pandas as pdimport numpy as npimport matplotlib.pyplot as plt ...原创 2018-04-01 17:44:56 · 25450 阅读 · 0 评论 -
Pyhton科学计算工具Pandas(六)—— 文本数据处理
Pyhton科学计算工具Pandas(六)—— 文本数据处理Pandas针对字符串配备的一套方法,使其易于对数组的每个元素进行操作字符串的常用方法字符计数,自动排除丢失/NA值# 通过str访问,且自动排除丢失/ NA值s = pd.Series(['A','b','C','bbhello','123',np.nan,'hj'])df = pd.DataFrame...原创 2018-03-26 23:08:19 · 542 阅读 · 0 评论 -
Pyhton科学计算工具Pandas(七)—— 数据的合并,连接与修补
Pyhton科学计算工具Pandas(七)—— 数据的合并,连接与修补合并 .merge()和.join().merge() Pandas具有全功能的,高性能内存中连接操作,与SQL等关系数据库非常相似 pd.merge(left, right, how=’inner’, on=None, left_on=None, right_on=None, ...原创 2018-03-28 20:21:01 · 582 阅读 · 0 评论 -
Pyhton科学计算工具Pandas(八)—— 数据的去重及替换
Pyhton科学计算工具Pandas(七)—— 数据的去重及替换去重 .duplicated()# 去重 .duplicated()s = pd.Series([1,1,1,1,2,2,2,3,4,5,5,5,5])print(s.duplicated(keep='first'))print(s[s.duplicated() == False])print('-----')...原创 2018-03-28 20:51:58 · 3470 阅读 · 0 评论 -
Pyhton科学计算工具Pandas(九)—— 数据分组
Pyhton科学计算工具Pandas(九)—— 数据分组 分组统计 - groupby功能 根据某些条件将数据拆分成组 对每个组独立应用函数 将结果合并到一个数据结构中 Dataframe在行(axis=0)或列(axis=1)上进行分组,将一个函数应用到各个分组并产生一个新值,然后函数执行结果被合并到最终的结果对象中。 df.groupby(by=None...原创 2018-03-29 00:42:41 · 762 阅读 · 0 评论 -
Pyhton科学计算工具Pandas(十)—— 透视表和交叉表
Pyhton科学计算工具Pandas(十)—— 透视表和交叉表.ipynb透视表# 透视表:pivot_table# pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name=...原创 2018-03-29 01:29:53 · 2594 阅读 · 0 评论 -
统计参数 SSE,MSE,RMSE,R-square 详解
原文章地址:http://blog.sina.com.cn/s/blog_628033fa0100kjjy.html在学习线性回归的过程中,遇到下面几个名词:SSE(和方差、误差平方和):The sum of squares dueto errorMSE(均方差、方差):Meansquared errorRMSE(均方根、标准差):Root mean squared errorR-square(确...转载 2018-04-24 17:15:05 · 71443 阅读 · 3 评论 -
Python数据可视化matplotlib(三)——绘制基本的图表
Python数据可视化matplotlib(三)——绘制基本的图表import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inlineimport matplotlib.style as pslpsl.use('_classic_test')基本图表绘制 plt.pl...原创 2018-04-24 20:06:13 · 30288 阅读 · 1 评论 -
数据特征分析技能—— 统计分析
数据特征分析技能——统计分析 统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析import numpy as npimport pandas as pdimport matplotlib.pyplot as plt% matplotlib inline集中趋势度量 指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值 ...原创 2018-05-03 10:53:57 · 4514 阅读 · 0 评论 -
Pyhton科学计算工具Pandas(五)—— 常用的数值计算和统计方法
Pyhton科学计算工具Pandas(五)—— 常用的数值计算和统计方法基本参数axis,skipna# 基本参数:axis、skipnadf = pd.DataFrame({'key1':[4,5,3,np.nan,2], 'key2':[1,2,np.nan,4,5], 'key3':[1,2,3,'...原创 2018-03-23 23:22:31 · 1912 阅读 · 0 评论