pandas 不常用函数说明

原创已于 2022-11-03 14:51:29 修改 · 810 阅读

1 ·

CC 4.0 BY-SA版权

如果该文章对你有帮助,请为我打call

文章标签：

#pandas #python #开发语言

于 2022-11-02 10:12:21 首次发布

Python 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了Pandas库中Index.get_level_values方法的使用，该方法用于从MultiIndex获取单个级别的值。此外，还详细解释了stack和unstack操作的区别及应用场景，并介绍了时间序列数据处理中的resample方法，包括其参数说明和示例。

- get_level_values

用法:

Index.get_level_values(level)

返回请求级别的值索引。

这主要用于从 MultiIndex 获取单个级别的值，但在 Index 上也提供了兼容性。

参数：
level：整数或字符串
它是整数位置或级别的名称。

返回：
index
调用对象，因为索引中只有一层。

注意：
对于索引，级别应为 0，因为没有多个级别。

例子：

>>> idx = pd.Index(list('abc'))
>>> idx
Index(['a', 'b', 'c'], dtype='object')

通过提供 level 作为整数来获取级别值：

>>> idx.get_level_values(0)
Index(['a', 'b', 'c'], dtype='object')

- unstack

statck（堆叠）：该操作会“旋转”或将列中的数据透视到行，即将原来的列转成最内层的行索引
unstack（拆堆）：该操作会将行中的数据透视到列，即将最内层的行索引变成列

例子:

data：

number	   one two three
state			
Ohio	    0	1	2
Colorado	3	4	5

stack

result = data.stack()

result：

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int32

unstack

result.unstack()

输出结果：

number	   one two three
state			
Ohio	    0	1	2
Colorado	3	4	5

resample

resample()进行重采样。
重采样（Resampling）指的是把时间序列的频度变为另一个频度的过程。把高频度的数据变为低频度叫做降采样（downsampling），把低频度变为高频度叫做升采样（upsampling）

resample参数如下：

resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start',kind=None, loffset=None, limit=None, base=0)

降采样
考虑因素：

各区间哪边是闭合的（参数：closed）

如何标记各聚合面元，用区间的开头还是末尾（参数：label）

freq取值如下：
在这里插入图片描述

In [235]: ts.resample('5min').sum()
Out[235]:
2018-08-03 00:00:00    10
2018-08-03 00:05:00    35
2018-08-03 00:10:00    21
Freq: 5T, dtype: int32