Pandas的基本使用-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_65816128/article/details/144132441

介绍

pandas 是一个强大的 Python 数据分析库，主要用于数据处理和分析。它提供了高效的数据结构（如 DataFrame 和 Series）以及许多用于操作和分析数据的函数。

安装

pip install pandas

基本用法

1.创建数据结构

1.创建 Series：`Series` 是一维数组，带有标签（索引）

# 创建 Series
data = pd.Series([1, 2, 3, 4, 5])
print(data)

2.创建 DataFrame：`DataFrame` 是一个二维表格，类似于 Excel 表格。

# 创建 DataFrame
data = {
    '列1': [1, 2, 3],
    '列2': [4, 5, 6]
}
df = pd.DataFrame(data)
print(df)

2.从文件读取数据

1.读取 CSV 文件

df = pd.read_csv('data.csv')
print(df)

2.读取 Excel 文件

df = pd.read_excel('data.xlsx')
print(df)

3.数据查看和选择

1.查看数据的前几行

print(df.head())  # 默认显示前 5 行
print(df.tail(3))  # 显示最后 3 行

2.选择特定列

print(df['列1'])  # 选择“列1”

3.选择特定行

print(df.iloc[0])  # 选择第一行
print(df.loc[0])   # 选择索引为 0 的行

4.数据操作

1.数据筛选

# 筛选出“列1”大于 1 的行
filtered_data = df[df['列1'] > 1]
print(filtered_data)

2.添加新列

df['新列'] = df['列1'] + df['列2']
print(df)

3.删除列

df.drop('新列', axis=1, inplace=True)  # axis=1 表示删除列
print(df)

5.数据统计

1.描述性统计

print(df.describe())  # 显示数据的统计信息

2.计算均值

mean_value = df['列1'].mean()
print("列1的均值:", mean_value)

6.数据保存

1.保存为 CSV 文件

df.to_csv('output.csv', index=False)  # index=False 表示不保存索引

2.保存为 Excel 文件

df.to_excel('output.xlsx', index=False)

7.示例

import pandas as pd

# 创建 DataFrame
data = {
    '姓名': ['Alice', 'Bob', 'Charlie'],
    '年龄': [25, 30, 35],
    '城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)

# 查看数据
print("原始数据:")
print(df)

# 添加新列
df['工资'] = [5000, 6000, 7000]

# 筛选数据
filtered_df = df[df['年龄'] > 28]
print("\n年龄大于 28 的数据:")
print(filtered_df)

# 保存数据为 CSV 文件
df.to_csv('output.csv', index=False)