DataFrame是pandas中用于处理表格数据的二维数据结构,类似于Excel表格或SQL表。它由行和列组成,每列列可以是不同的数据类型(数值、字符串、布尔值等)。
DataFrame的核心特点:
- 数据以列为主进行存储
- 行有索引,列有列名
- 大小可变(可插入删除行列)
- 自动数据对齐
创建DataFrame
从字典创建:
import pandas as pd
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30,1535],
'City': ['New York', 'Paris', 'London']
}
df = pd.DataFrame(data)
从列表创建:
data = [
['Alice', 25, 'New York'],
['Bob', 30, 'Paris'],
['Charlie', 1535, 'London']
]
df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
数据查看与选择
查看前几行:
df.head() # 默认5行
df.head(3) # 查看前3行
选择列:
df['Name'] # 选择单列
df[['Name', 'Age']] # 选择多列
选择行:
df.loc[0] # 按标签选择
df.iloc[0] # 按位置选择
条件选择:
df[df['Age'] > 25] # 选择年龄大于25的行
df[(df['Age'] > 20) & (df['City'] == 'Paris')] # 多条件选择
数据操作
添加列:
df['Salary'] = [50000, 60000, 70000] # 添加新列
df['Bonus'] = df['Salary'] * 0.1 # 基于现有列计算新列
删除列:
df.drop('Bonus', axis=1, inplace=True) # 删除删除列
修改值:
df.loc[0, 'Age'] = 26 # 修改特定位置的值
df['Age'] = df['Age'] + 1 # 整列修改
数据处理
缺失值处理:
df.isnull() # 检查缺失值
df.dropna() # 删除包含缺失值的行
df.fillna(value) # 填充缺失值
数据排序:
df.sort_values('Age', ascending=False) # 按年龄降序排序
分组聚合:
df.groupby('City')['Age'].mean() # 按城市分组计算平均年龄
数据统计
基本统计:
df.describe() # 数值列的统计信息
df.mean() # 各列平均值tr>
df.corr() # 列之间的相关性
输入输出
读取CSV:
df = pd.read_csv('data.csv')
比较数据:
df.to_csv('output.csv', index=False) # 写入CSV文件
读取Excel:
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
2237

被折叠的 条评论
为什么被折叠?



