提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
- 引言
- 一 pd.Series的创建
- 二 pd.Series的常用属性与方法
-
- 1 pd.Series的常用属性
- 2 pd.Series的常用方法
-
- (1)基本方法
- (2) 排序
- (3)数据处理(转换)
-
- s.astype(dtype) ---- 转换 Series 的数据类型。有返回值,无inplace参数。
- .to_list() ---- 将 Series 转换为 Python 列表。
- .to_numpy(): 将 Series 转换为 NumPy 数组。
- .to_frame(name='col_name') --- 将 Series 转换为 DataFrame。name='col_name'指定列名
- .reset_index() ----- 重置索引
- 缺失值处理
- s .drop(index) ---- 删除指定索引行
- 高级用法(.apply(func))---- 元素级操作,将指定函数应用于 Series 中的每个元素,并返回结果。
- 统计方法
-
- .sum(): 返回所有元素的和。
- .mean(): 返回所有元素的均值。
- .median(): 返回所有元素的中位数。
- .std(): 返回样本标准差。
- .var(): 返回样本方差。
- .min(): 返回最小值。
- .max(): 返回最大值。
- .quantile(q=0.5, interpolation='linear'): 返回第 q 个分位数值。
- .mad(): 返回平均绝对偏差。
- .corr(other, method='pearson', min_periods=None): 计算与另一 Series 的相关系数。
- .cov(other, min_periods=None, ddof=1): 计算与另一 Series 的协方差。
- .count(level=None): 计算非 NA/null 值的数量
- .cumsum(axis=0, skipna=True): 返回累积和
- .cumprod(axis=0, skipna=True): 返回累积积
- (4) 空series及其判断
- 三 series的访问、索引、切片、布尔索引等操作
引言
本部分主要介绍一些注意事项。
一 pd.Series的创建
pd.Series(data,index,dtype)---- 创建一维pd.Series;特别是其中的通过字典创建
pd.Series
的主要参数有以下几个:
-
data:Series 的数据,可以是列表、数组、字典等。如果是字典,字典的键将成为 Series 的索引,字典的值将成为 Series 的数据。
-
index:用于指定 Series 的索引,可以是列表、数组、索引对象(如
pd.Index
对象)、标量或者 None。如果不提供索引,将默认使用从 0 开始的整数索引。 -
dtype:指定 Series 的数据类型。如果不指定,将根据数据类型推断。
下面是一些示例:
示例1:不定义index
# 通过列表创建 Series,不定义index会自动生成0....index
data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s) # 0 1
# 1 2
# 2 3
# 3 4
# 4 5
# dtype: int64
示例2:自定义index
data = [1, 2, 3, 4, 5]
# 自定义索引
index = ['a', 'b', 'c', 'd', 'e']
s = pd.Series(data, index=index)
print(s)
# a 1
# b 2
# c 3
# d 4
# e 5
# dtype: int64
示例3:通过字典创建
# 通过字典创建 Series
data = {
'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
s = pd.Series(data)
print(s)
# a 1
# b 2
# c 3
# d 4
# e 5
# dtype: int64
二 pd.Series的常用属性与方法
1 pd.Series的常用属性
s.index ---- 返回值是一个index对象,需要用 to_list()或to_numpy()转换过去
s.value ---- 返回值是一个 numpy数组
s.shape ---- 形状
s.size ---- 元素总数
s.dtype
在pandas里面 str 数据类型也是用 object表示的
在 Pandas 中,dtype: object 表示该列或 Series 中包含了一种通用的对象类型。通常,object 数据类型用于存储字符串,但它也可以存储其他类型的对象,例如列表、字典,甚至是混合类型的数据。
# 通过字典创建 Series
data_int = {
'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
data_str = {
'a': 'apple', 'b': 'banana', 'c': 'cat', 'd': 'dog', 'e': 'elephant'}
data_obj = {
'a': 1, 'b': 'banana', 'c': 3, 'd': 'dog', 'e': 5}
int_ = pd.Series(data_int)
str_ = pd.Series(data_str)
obj_ = pd.Series(data_obj)
print(int_)
# a 1
# b 2
# c 3
# d 4
# e 5
# dtype: int64
print(str_)
# a apple
# b banana
# c cat
# d dog
# e elephant
# dtype: object
print(obj_)
# a 1
# b banana
# c 3
# d dog
# e 5
# dtype: object
# 属性(部分)
print(int_.dtype) # int64
print(str_.dtype) # object
print(obj_.dtype) # object
s.ndim ---- 一维数组维数,永远是1
# 通过字典创建 Series
data = {
'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
s = pd.Series(data)
print(s.dtype) # int64
print(s.shape) # (5,) pd.Series 是一维数组
print(s.index) # Index(['a', 'b', 'c', 'd', 'e'], dtype='object') 这是一个索引对象
print(s.values) # [1 2 3 4 5] 这是一个numpy数组
print(s.ndim) # 1 永远是1
print(s.size) # 5 元素个数
2 pd.Series的常用方法
(1)基本方法
s.head() — 默认是查看前5行
s.tail() — 默认是查看后5行
# 通过字典创建 Series
data = {
'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 6}
s = pd.Series(data)
print(s.head(2