十分钟搞定pandas(一)

这是关于pandas的简短介绍,主要面向新用户。可以参阅Cookbook了解更复杂的使用方法。

习惯上,我们做以下导入

创建对象

使用传递的值列表序列创建序列, 让pandas创建默认整数索引

使用传递的numpy数组创建数据帧,并使用日期索引和标记列.

使用传递的可转换序列的字典对象创建数据帧.

所有明确类型

如果你这个正在使用IPython,标签补全列名(以及公共属性)将自动启用。这里是将要完成的属性的子集:

如你所见, 列 ABC, 和 D 也是自动完成标签. E 也是可用的; 为了简便起见,后面的属性显示被截断.

查看数据

参阅基础部分

查看帧顶部和底部行

显示索引,列,和底层numpy数据

描述显示数据快速统计摘要

转置数据

按轴排序

按值排序

选择器

注释: 标准Python / Numpy表达式可以完成这些互动工作, 但在生产代码中, 我们推荐使用优化的pandas数据访问方法, .at, .iat, .loc, .iloc 和 .ix.

参阅索引文档 索引和选择数据 and 多索引/高级索引

读取

选择单列, 这会产生一个序列, 等价df.A

使用[]选择行片断

使用标签选择

更多信息请参阅按标签选择

使用标签获取横截面

使用标签选择多轴

显示标签切片, 包含两个端点

降低返回对象维度

获取标量值

快速访问并获取标量数据 (等价上面的方法)

按位置选择

更多信息请参阅按位置参阅

传递整数选择位置

使用整数片断,效果类似numpy/python

使用整数偏移定位列表,效果类似 numpy/python 样式

显式行切片

显式列切片

显式获取一个值

快速访问一个标量(等同上个方法)

布尔索引

使用单个列的值选择数据.

where 操作.

使用 isin() 筛选:

赋值

赋值一个新列,通过索引自动对齐数据

按标签赋值

按位置赋值

通过numpy数组分配赋值

之前的操作结果

where 操作赋值.

丢失的数据

pandas主要使用np.nan替换丢失的数据. 默认情况下它并不包含在计算中. 请参阅 Missing Data section

重建索引允许更改/添加/删除指定轴索引,并返回数据副本.

删除任何有丢失数据的行.

填充丢失数据

获取值是否nan的布尔标记

运算

参阅二元运算基础

统计

计算时一般不包括丢失的数据

执行描述性统计

在其他轴做相同的运算

用于运算的对象有不同的维度并需要对齐.除此之外,pandas会自动沿着指定维度计算.

Apply

在数据上使用函数

直方图

请参阅 直方图和离散化

字符串方法

序列可以使用一些字符串处理方法很轻易操作数据组中的每个元素,比如以下代码片断。 注意字符匹配方法默认情况下通常使用正则表达式(并且大多数时候都如此). 更多信息请参阅字符串向量方法.


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值