
数据分析
pandas的使用
pnd237
这个作者很懒,什么都没留下…
展开
-
《利用python进行数据分析》读书笔记之时间序列(二)
时间序列(二)时间区间和时间算数区间频率转换本文中可能使用的数据集来自:《利用python进行数据分析》数据集时间区间和时间算数时间区间表示的是一个时间范围,如从2007年1月1日到2007年12月31日就是一个时间区间。pandas中包含一个Period类,用于表示时间区间。可以使用以下语句来创建一个Period对象:p1 = pd.Period("2007",'A-DEC')#表示...原创 2020-04-09 20:52:40 · 1197 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之pandas基础(二)
?基本功能重建索引轴向上删除条目索引、选择与过滤基本功能重建索引考虑一个最简单的Series对象:import pandas as pdobj = pd.Series([4.5,7.2,-5.3,3.6],index = ['d','b','a','c'])# d 4.5# b 7.2# a -5.3# c 3.6# dtype: float64我们可以...原创 2020-02-15 17:48:48 · 294 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之高阶GroupBy应用
高阶BroupBy应用和方法链技术分组转换和“展开”GroupBy分组的时间重新采样本文中可能使用的数据集来自:《利用python进行数据分析》数据集。之前我们已经讲过通过使用groupby方法来进行数据的分组和聚合。这里介绍一些可能会在数据分析过程中用到的额外用法。分组转换和“展开”GroupBy我们在之前分组和聚合的学习中知道,apply方法可以用于执行转换操作。transform方法...原创 2020-04-14 21:25:06 · 686 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之分类(Categorical)数据
分类数据背景和目标pandas中的Categorical类型使用Categorical对象进行计算使用分类获得更高的性能分类方法创建用于建模的虚拟变量本文中可能使用的数据集来自:《利用python进行数据分析》数据集背景和目标在处理数据的时候,我们经常会遇到一个列中部分数据完全相同,比如下面这个Series对象:import pandas as pdvalues = pd.Series...原创 2020-04-13 21:08:38 · 2352 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之时间序列(一)
时间序列(一)日期和时间数据的类型和工具字符串与datetime互相转换时间序列基础索引、选择、子集含有重复索引的时间序列本文中使用的数据集来自:《利用python进行数据分析》数据集日期和时间数据的类型和工具python标准库中包含了时间和日期数据的类型比如datetime.datetime类:from datetime import datetimenow = datetime.n...原创 2020-04-07 22:17:45 · 629 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之数据聚合与分组的应用
通用拆分-应用-联合压缩分组键本文中使用的数据集来自:《利用python进行数据分析》数据集经过了前两节对分组和聚合的学习,现在来进行数据拆分和聚合的小实战。现在以资源文件中的tips.csv数据集为例,首先对文件进行读取,并添加一个tip_pct(小费百分比)列:import pandas as pdimport numpy as nptips = pd.read_csv('../p...原创 2020-04-01 21:17:15 · 799 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之数据聚合
数据聚合逐列以及多函数应用返回不含行索引的聚合数据本文中使用的数据集来自:《利用python进行数据分析》数据集聚合是指根据数组产生标量值的数据转换过程,如mean、count、min和sum等。在之前介绍groupby机制的时候我们知道对GroupBy对象可以使用count等方法进行聚合,得到每个分组的聚合结果。常见的GroupBy对象的聚合方法见下表:方法描述coun...原创 2020-03-31 20:17:48 · 221 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之GroupBy机制
GroupBy机制遍历各个分组选择一列或者所有列的子集使用字典和Series进行分组使用函数分组根据索引层级分组现在考虑以下这个简单的DataFrame:df = pd.DataFrame({'key1':list('aabba'), 'key2':['one','two','one','two','one'], 'd...原创 2020-03-30 20:46:07 · 611 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之使用pandas和seaborn绘图
pandas和seaborn绘图折线图柱状图折线图Series和DataFrame都有一个plot属性,用于绘制基本图形,默认情况下绘制的是折线图:import numpy as npimport pandas as pdfrom matplotlib import pyplot as plts = pd.Series(np.random.randn(10).cumsum(),i...原创 2020-03-27 12:33:54 · 496 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之matplotlib API入门
matplotlib API入门图片与子图颜色、标记和线类型刻度、标签和图例设置标题、轴标签、刻度和刻度标签添加图例在使用matlotlib之前我们首先需要进行导入:import matplotlib.pyplot as plt我们可以试着生成一个简单的图形:import matplotlib.pyplot as pltimport numpy as npdata = np.ar...原创 2020-03-23 20:30:46 · 174 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之联合与合并数据集
联合与合并数据集数据库风格的DataFrame连接搜索索引合并数据库风格的DataFrame连接我们可以使用pandas中的merge函数,将两个DataFrame相连,先看多对一的列子:import pandas as pddf1 = pd.DataFrame({"key":list('bbacaab'),'data1':range(7)})# key data1# 0 ...原创 2020-03-18 19:04:35 · 667 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之分层索引
分层索引重排序和层级排序分层索引可以让数据在一个轴上拥有多个索引,考虑以下例子:import pandas as pdimport numpy as npdata = pd.Series(np.random.randn(9), index = [list('aaabbccdd'),[1,2,3,1,3,1,2,2,3]])# a 1 0.9561...原创 2020-03-06 18:26:00 · 263 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之字符串操作
字符串操作字符串对象处理方法字符串对象处理方法一个逗号分隔符的字符串可以使用split分成许多块:val = 'a,b, guide'print(val.split(','))# ['a', 'b', ' guide']split尝尝和strip一起使用,用于清除空格和换行:val = 'a,b, guide'pieces = [i.strip() for i in val...原创 2020-03-05 20:07:25 · 381 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之数据转换(二)
数据转换离散化和分箱检测和过滤异常值置换和随机抽样离散化和分箱连续值经常需要进行离散化,或者分离成“箱子”进行分析。现在我们有一组人群的年龄数据,我们想要将他们分入18-25,26-35,35-60以及60以上四个组中。为了实现分组可以使用pandas中的cut:import pandas as pdages = [20,22,25,27,21,23,37,31,61,45,41,32]...原创 2020-03-02 18:17:18 · 298 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之数据转换(一)
数据转换删除重复值使用函数或映射进行数据转换替代值重命名轴索引删除重复值由于种种原因,DataFrame中会出现重复行。考虑下列DataFrame:import pandas as pddata = pd.DataFrame({'k1':['one','two'] * 3 + ['two'], 'k2:':[1,1,2,3,3,4,4]})# 0...原创 2020-03-01 21:18:13 · 253 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之处理缺失值
处理缺失值过滤缺失值补全缺失值pandas使用NaN来表示一个缺失值,常用的处理缺失值的方法如下表所示:方法名描述dropna根据每个标签的值是否是缺失数据来删选标签,并根据允许丢失的数据来确定阈值fillna用某些值填充确实的数据或使用插值方法(如’ffill’或者’bfill’)isnull返回表明哪些值是缺失值的布尔值notnullisnul...原创 2020-02-28 21:00:58 · 210 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之文本格式数据的读写
将表格型数据读取为DataFrame对象是数据分析的重要一步。read_csv和read_table可能是后期我们使用的最多的函数。下面总结了书上给出的pandas中常用的解析函数。函数描述read_scv从文件、URL或文件型对象读取分隔号的数据,逗号是默认分隔符read_table从文件、URL或文件型对象读取分隔好的数据read_fwf从特定宽度格式的...原创 2020-02-25 20:30:54 · 1209 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之pandas基础(三)
基本功能描述性统计的概述与计算相关性和协方差描述性统计的概述与计算pandas对象装配了一个常用数学。统计学方法的集合。以以下这个简单的DataFrame为例:import pandas as pdimport numpy as npdf = pd.DataFrame([[1.4,np.nan],[7.1,4.5], [np.nan,np.nan]...原创 2020-02-17 21:54:40 · 1413 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之pandas基础(一)
pandas入门pandas数据结构介绍Seriespandas数据结构介绍SeriesSeries类易于一维数组,包含值以及索引(index),最简单的Series可以由一个列表组成:import pandas as pdobj = pd.Series([1,-2,3,5])print(obj)#0 1# 1 -2# 2 3# 3 5# dtype: ...原创 2020-02-09 17:50:10 · 192 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之Numpy基础(二)
NumPy ndarray:多维数组对象通用函数面向数组的编程将条件逻辑作为数组操作数学和统计方法布尔值数组方法排序唯一值与其他逻辑集合使用数组进行文件输入和输出通用函数通用函数,也称为ufunc,可以对ndarray中的元素进行逐个操作,分为一元通用函数和二元通用函数。一元通用函数:接受一个数组并返回结果,如:arr = np.arange(10)print(np.sqrt(arr))...原创 2020-02-08 18:27:35 · 170 阅读 · 0 评论 -
《利用python进行数据分析》读书笔记之Numpy基础(一)
NumPy ndarray:多维数组对象常用的ndarray对象生成方法ndarray的数据类型numpy数组算数基础索引与切片一维数组的切片二维数组的切片布尔索引首先介绍ndarray对象的两个属性,分别是dtype和shape,分别是ndarray的数据类型和形状描述import numpy as np#生成一个两行三列的随机矩阵arr = np.random.rand(2,3)pr...原创 2020-02-08 14:55:50 · 186 阅读 · 0 评论