Python pandas DataFrame

最新推荐文章于 2025-12-04 22:56:41 发布

原创最新推荐文章于 2025-12-04 22:56:41 发布 · 169 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #DateFrame #pandas #jupyter

DataFrame是pandas中用于处理表格数据的二维数据结构，类似于Excel表格或SQL表。它由行和列组成，每列列可以是不同的数据类型（数值、字符串、布尔值等）。

DataFrame的核心特点：

数据以列为主进行存储
行有索引，列有列名
大小可变（可插入删除行列）
自动数据对齐

创建DataFrame

从字典创建：

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30,1535],
    'City': ['New York', 'Paris', 'London']
}

df = pd.DataFrame(data)

从列表创建：

data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Paris'],
    ['Charlie', 1535, 'London']
]

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

数据查看与选择

查看前几行：

df.head()  # 默认5行
df.head(3)  # 查看前3行

选择列：

df['Name']  # 选择单列
df[['Name', 'Age']]  # 选择多列

选择行：

df.loc[0]  # 按标签选择
df.iloc[0]  # 按位置选择

条件选择：

df[df['Age'] > 25]  # 选择年龄大于25的行
df[(df['Age'] > 20) & (df['City'] == 'Paris')]  # 多条件选择

数据操作

添加列：

df['Salary'] = [50000, 60000, 70000]  # 添加新列
df['Bonus'] = df['Salary'] * 0.1  # 基于现有列计算新列

删除列：

df.drop('Bonus', axis=1, inplace=True)  # 删除删除列

修改值：

df.loc[0, 'Age'] = 26  # 修改特定位置的值
df['Age'] = df['Age'] + 1  # 整列修改

数据处理

缺失值处理：

df.isnull()  # 检查缺失值
df.dropna()  # 删除包含缺失值的行
df.fillna(value)  # 填充缺失值

数据排序：

df.sort_values('Age', ascending=False)  # 按年龄降序排序

分组聚合：

df.groupby('City')['Age'].mean()  # 按城市分组计算平均年龄

数据统计

基本统计：

df.describe()  # 数值列的统计信息
df.mean()  # 各列平均值tr>
df.corr()  # 列之间的相关性

输入输出

读取CSV：

df = pd.read_csv('data.csv')

比较数据：

df.to_csv('output.csv', index=False)  # 写入CSV文件

读取Excel：

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')