Pandas中df常用方法介绍

常用方法

df.columns

df.columns 是 Pandas 中 DataFrame 对象的一个属性,用于获取 DataFrame 中的列标签(列名)。

基本语法如下:

df.columns

该属性返回一个包含 DataFrame 中所有列标签的 Index 对象,您可以将其视为一个包含列标签的列表。

示例:

import pandas as pd

# 创建一个 DataFrame
data = {
   'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 获取 DataFrame 的列标签
columns = df.columns
print(columns)
Index(['A', 'B'], dtype='object')

df.index

df.index 是 Pandas 中 DataFrame 对象的一个属性,用于获取 DataFrame 的行标签(行索引)。

基本语法如下:

df.index

该属性返回一个表示 DataFrame 的行索引的 Index 对象,类似于一个包含行标签的列表。

示例:

import pandas as pd

# 创建一个 DataFrame
data = {
   'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 获取 DataFrame 的行索引
index = df.index
print(index)

RangeIndex(start=0, stop=3, step=1)

df.values

df.values 是 Pandas 中 DataFrame 对象的一个属性,用于获取 DataFrame 中的数据部分,即 DataFrame 的值。

基本语法如下:

df.values

该属性返回一个包含 DataFrame 中所有数据的 NumPy 数组。每行代表 DataFrame 中的一行数据,每列代表 DataFrame 中的一列数据。

示例:

import pandas as pd

# 创建一个 DataFrame
data = {
   'A': [1, 2
PandasPython 中非常流行的数据处理库,主要用于数据清洗、分析和转换。它提供了一个强大且易用的 `DataFrame` 结构以及其他辅助工具来简化数据操作。以下是 Pandas 常见的一些函数及其使用方法: ### 1. 创建 DataFrame #### a) 使用字典创建 ```python import pandas as pd data = {'姓名': ['张三', '李四'], '年龄': [28, 34]} df = pd.DataFrame(data) print(df) ``` #### b) 从外部文件加载 (CSV 文件为例) ```python # 读取 CSV 文件到 DataFrame df = pd.read_csv('path/to/file.csv') # 将 DataFrame 写入 CSV 文件 df.to_csv('new_file.csv', index=False) ``` --- ### 2. 查看数据信息 #### a) 显示前几行或后几行数据 ```python # 显示前5行,默认为5;可以指定更多行数 n=10 df.head() # 显示最后5行,默认为5;同样可以指定行数 df.tail() ``` #### b) 获取数据的基本统计描述 ```python # 描述包括计数、均值、标准差等统计量 df.describe(include='all') ``` #### c) 检查列的数据类型及非空值情况 ```python # 返回每列的数据类型 df.dtypes # 统计每个特征有多少个有效(非NA/null)观测值 df.count() ``` --- ### 3. 数据选择与过滤 #### a) 列选择 ```python # 单一列的选择 single_column = df['姓名'] # 多列选择(返回一个新的包含所选列的小型 DataFrame) columns_subset = df[['姓名', '年龄']] ``` #### b) 行条件筛选 ```python # 根据某一条件筛选出符合条件的所有行 filtered_df = df[df['年龄'] > 30] ``` --- ### 4. 缺失值处理 #### a) 检测缺失值 ```python # 找到所有含有 NaN 的位置并标记 True 或 False missing_values = df.isnull() # 总结每一列中有多少个 NA/Nan total_missing_per_col = df.isna().sum() ``` #### b) 删除缺失值所在的整行或整列 ```python # 移除任何含有NaN的一行 cleaned_df = df.dropna(how="any") # 如果你想删除某特定列上的所有 nulls,则可以这样做: column_cleaned_df = df.dropna(subset=['姓名']) ``` #### c) 替换缺失值 ```python # 使用固定值填充所有的 NA/nan filled_with_value = df.fillna(-99) # 或者根据某种策略填充(比如向前填充 last observation carried forward) ffilled_df = df.ffill(axis=0) ``` --- ### 5. 分组与聚合 ```python # 计算按性别分组后的平均工资 groupby_gender_mean_salary = df.groupby("性别")["工资"].mean() ``` --- ### 6. 排序 ```python # 按照“年龄”升序排列整个表单内容 sorted_by_age_ascending = df.sort_values(by=["年龄"], ascending=True) # 同时按照两个字段排序,“部门ID”降序、“入职时间”升序 multi_sorted_df = df.sort_values(by=["部门ID", "入职时间"], ascending=[False, True]) ``` --- 这是对 Pandas 库一些基本功能的一个概述。通过结合这些命令和其他更高级的技术,你可以轻松地进行各种形式的数据预处理工作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值