
python
文章平均质量分 77
小狼躲藏
专注于数据仓库、治理、数据分析领域
展开
-
Pandas: 数据合并
1.记录合并记录合并是指将两个结构相同的数据框合并成一个数据框,也就是在一个数据框中追加另一个数据框的数据记录。1.1 concat 函数函数说明:concat方法相当于数据库中的全连接(union all),它不仅可以指定连接的方式(outer join 或 inner join),还可以指定按照某个轴进行连接。与数据库不同的是,它不会去重,但可以使用drop_duplicates方法达到去重的效果。命令格式:concat([dataFrame1, dataFrame2,…], in原创 2021-04-29 02:06:00 · 1348 阅读 · 6 评论 -
数据分析:有关相关性分析的混沌
相关分析是指对多个具备相关关系的变量进行分析,从而衡量变量间的相关程度或密切程度。相关性可以应用到所有数据的分析过程中,任何事物之间都存在一定的联系。相关性用R(相关系数)表示,R的取值范围是[-1,1]相关和因果的差异 相关性不等于因果,用x1和x2作为两个变量逆行解释,相关意味着x1和x2是逻辑上的并列相关关系,而因果联系可以解释为因为x1所以x2(或因为x2所以x1)的逻辑关系,二...原创 2019-04-20 10:14:55 · 691 阅读 · 0 评论 -
Matplotlib可视化
原创 2019-04-18 00:32:02 · 154 阅读 · 0 评论 -
Pandas:数据分析与处理
1. 分组分析分组分析是指根据分组字段将分析对象划分成不同的部分,以对比分析各组之间差异性的一种分析方法。常用的统计指标有:计数,求和,平均值。常用命令形式如下:df.groupby(by=['分类1','分类2',...])['被统计的列'].agg({列名1:统计函数1, 列名2:统计函数2,...})参数说明: * by 表示用于分组的列 * [] 表示用于统计...原创 2019-04-17 23:28:29 · 711 阅读 · 0 评论 -
Pandas:基本统计分析
基本统计分析又叫描述性统计分析,一般统计某个变量的最小值,第一个四分位值,中值,第三个四分位值以及最大值。描述性统计分析函数为describe,该函数返回值有均值,标准差,最大值,最小值,分位数等。括号中可以带一些参数,如percentitles=[0.2,0.4,0.6,0.8]就是指定只计算0.2, 0.6, 0.8 分位数,而不是默认的1/4, 1/2, 3/4分位数。describe...原创 2019-04-17 23:07:07 · 2759 阅读 · 0 评论 -
聚类分析
聚类常用于数据探索或挖掘前期,在没有做先验经验的背景下做的探索性分析,也适用于样本量较大情况下的数据预处理工作。例如针对企业整体的用户特征,在未得到相关只是或经验之前先根据数据本身特点进行用户分群,然后针对不同群体做进一步分析;例如对连续数据做离散化,便于后续做分类分析应用。 常用的聚类算法分为基于划分,层次,密度,网格,统计学,模型等类型的算法,典型算法包括K均值(经典的聚类算法),DB...原创 2019-04-20 17:40:05 · 4401 阅读 · 0 评论 -
Pandas 的Merge总结
Pandas Mergepandas 的merge方法提供了一种类似于SQL的内存链接操作,官网文档提到它的性能会比其他开源语言的数据操作(例如R)要高效。MergeMerge的参数on: 列名,join用来对齐的那一列名字,用到这个参数的时候一定要保证坐表和右表用来对齐的那一列都有相同的列名。left_on: 坐标对齐的列,可以是列名,也可以是和dataframe同样长度的array...原创 2019-04-01 18:29:32 · 2067 阅读 · 0 评论 -
Anaconda使用总结
序Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打包,方便pythoners直接使用,此外,还有virtualenv、pyenv等工具管理虚拟环境。个人尝试了很多类似的发行版,转载 2017-02-10 09:47:33 · 1109 阅读 · 0 评论 -
python 匹配文本全角转半角字符
在对文本进行处理的时候经常会遇见要对括号和标点进行匹配常见的英文(半角)符号如( ) 直接用正则匹配即可但是遇见全角字符(中文括号、标点),直接用正则匹配会存在问题:因为编码通常为为utf8,若直接匹配,中文括号的3字节编码会和一些中文的字节编码重复,产生意想不到的结果若用decode转为unicode编码,则可避免产生错误结果,但也无法直接用正则匹配到经过试验,发现一个看上去转载 2017-02-07 16:00:48 · 3497 阅读 · 0 评论 -
解决UnicodeEncodeError: 'ascii' codec can't encode characters in position问题
异常: UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: ordinal not in range(128)解决方法: 在开头添加上:import sysreload(sys)sys.setdefaultencoding("utf-8")原创 2017-02-07 15:57:31 · 534 阅读 · 0 评论