介绍
pandas
是一个强大的 Python 数据分析库,主要用于数据处理和分析。它提供了高效的数据结构(如 DataFrame 和 Series)以及许多用于操作和分析数据的函数。
安装
pip install pandas
基本用法
1.创建数据结构
1.创建 Series:Series
是一维数组,带有标签(索引)
# 创建 Series
data = pd.Series([1, 2, 3, 4, 5])
print(data)
2.创建 DataFrame:DataFrame
是一个二维表格,类似于 Excel 表格。
# 创建 DataFrame
data = {
'列1': [1, 2, 3],
'列2': [4, 5, 6]
}
df = pd.DataFrame(data)
print(df)
2.从文件读取数据
1.读取 CSV 文件
df = pd.read_csv('data.csv')
print(df)
2.读取 Excel 文件
df = pd.read_excel('data.xlsx')
print(df)
3.数据查看和选择
1.查看数据的前几行
print(df.head()) # 默认显示前 5 行
print(df.tail(3)) # 显示最后 3 行
2.选择特定列
print(df['列1']) # 选择“列1”
3.选择特定行
print(df.iloc[0]) # 选择第一行
print(df.loc[0]) # 选择索引为 0 的行
4.数据操作
1.数据筛选
# 筛选出“列1”大于 1 的行
filtered_data = df[df['列1'] > 1]
print(filtered_data)
2.添加新列
df['新列'] = df['列1'] + df['列2']
print(df)
3.删除列
df.drop('新列', axis=1, inplace=True) # axis=1 表示删除列
print(df)
5.数据统计
1.描述性统计
print(df.describe()) # 显示数据的统计信息
2.计算均值
mean_value = df['列1'].mean()
print("列1的均值:", mean_value)
6.数据保存
1.保存为 CSV 文件
df.to_csv('output.csv', index=False) # index=False 表示不保存索引
2.保存为 Excel 文件
df.to_excel('output.xlsx', index=False)
7.示例
import pandas as pd
# 创建 DataFrame
data = {
'姓名': ['Alice', 'Bob', 'Charlie'],
'年龄': [25, 30, 35],
'城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)
# 查看数据
print("原始数据:")
print(df)
# 添加新列
df['工资'] = [5000, 6000, 7000]
# 筛选数据
filtered_df = df[df['年龄'] > 28]
print("\n年龄大于 28 的数据:")
print(filtered_df)
# 保存数据为 CSV 文件
df.to_csv('output.csv', index=False)