Pandas 深入学习【1】

最新推荐文章于 2025-11-23 19:45:40 发布

原创最新推荐文章于 2025-11-23 19:45:40 发布 · 308 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #学习

Python 同时被 2 个专栏收录

11 篇文章

订阅专栏

10 篇文章

订阅专栏

numpy.where()

根据某个特征数据（如某列），筛选，把筛选出来的数据按条件赋给新数据列，列如

import pandas as pd
import numpy as np

# 读取数据集 1分
data = pd.read_csv("xxx.csv")

# 创建新列'newcolumn'，根据某列值判断生成新的列
data['newcolumn'] = np.where(data['onecolumn'] > xx, 'a', 'b')

value_couns（）

查看数据表中，指定列里有多少个不同的数据值: 可以用value_couns（），它可以计算每个不同值有在该列中的个数，同时还能根据需要进行排序。

sort=True：是否要进行排序；默认进行排序
ascending=False： 默认降序排列；
normalize=False：是否要对计算结果进行标准化并显示标准化后的结果，默认是False。
bins=None： 可以自定义分组区间，默认是否；
dropna=True：是否删除缺失值nan，默认删除

value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)

pandas.cut(）

数据分箱函数，将数据进行按给定的不同的区间值进行分类，例如：

# 使用 cut 函数将年龄分割成区间
bins = [0, 18, 35, 60, 100]
labels = ['少年', '青年', '中年', '老年']
categories = pd.cut(data['Age'], bins, labels=labels)

# 使用 cut 函数将年龄分割成区间
bins = [0, 18, 35, 60, 100, np.inf]
labels = ['少年', '青年', '中年', '老年']
categories = pd.cut(data['Age'], bins, labels=labels, right=False)

bins：分类依据的标准，可以是int、标量序列或间隔索引(IntervalIndex)

right：是否包含

bins区间的最右边，默认为True，最右边为闭区间，False则不包含 labels：要返回的标签，和bins的区间对应