Python pandas DataFrame

DataFrame是pandas中用于处理表格数据的二维数据结构,类似于Excel表格或SQL表。它由行和列组成,每列列可以是不同的数据类型(数值、字符串、布尔值等)。

DataFrame的核心特点:

  • 数据以列为主进行存储
  • 行有索引,列有列名
  • 大小可变(可插入删除行列)
  • 自动数据对齐

创建DataFrame

从字典创建:

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30,1535],
    'City': ['New York', 'Paris', 'London']
}

df = pd.DataFrame(data)

从列表创建:

data = [
    ['Alice', 25, 'New York'],
    ['Bob', 30, 'Paris'],
    ['Charlie', 1535, 'London']
]

df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])

数据查看与选择

查看前几行:

df.head()  # 默认5行
df.head(3)  # 查看前3行

选择列:

df['Name']  # 选择单列
df[['Name', 'Age']]  # 选择多列

选择行:

df.loc[0]  # 按标签选择
df.iloc[0]  # 按位置选择

条件选择:

df[df['Age'] > 25]  # 选择年龄大于25的行
df[(df['Age'] > 20) & (df['City'] == 'Paris')]  # 多条件选择

数据操作

添加列:

df['Salary'] = [50000, 60000, 70000]  # 添加新列
df['Bonus'] = df['Salary'] * 0.1  # 基于现有列计算新列

删除列:

df.drop('Bonus', axis=1, inplace=True)  # 删除删除列

修改值:

df.loc[0, 'Age'] = 26  # 修改特定位置的值
df['Age'] = df['Age'] + 1  # 整列修改

数据处理

缺失值处理:

df.isnull()  # 检查缺失值
df.dropna()  # 删除包含缺失值的行
df.fillna(value)  # 填充缺失值

数据排序:

df.sort_values('Age', ascending=False)  # 按年龄降序排序

分组聚合:

df.groupby('City')['Age'].mean()  # 按城市分组计算平均年龄

数据统计

基本统计:

df.describe()  # 数值列的统计信息
df.mean()  # 各列平均值tr>
df.corr()  # 列之间的相关性

输入输出

读取CSV:

df = pd.read_csv('data.csv')

比较数据:

df.to_csv('output.csv', index=False)  # 写入CSV文件

读取Excel:

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值