Pandas的基本使用

介绍

pandas 是一个强大的 Python 数据分析库,主要用于数据处理和分析。它提供了高效的数据结构(如 DataFrame 和 Series)以及许多用于操作和分析数据的函数。

安装

pip install pandas

基本用法

1.创建数据结构

1.创建 SeriesSeries 是一维数组,带有标签(索引)

# 创建 Series
data = pd.Series([1, 2, 3, 4, 5])
print(data)

2.创建 DataFrameDataFrame 是一个二维表格,类似于 Excel 表格。

# 创建 DataFrame
data = {
    '列1': [1, 2, 3],
    '列2': [4, 5, 6]
}
df = pd.DataFrame(data)
print(df)

2.从文件读取数据

1.读取 CSV 文件

df = pd.read_csv('data.csv')
print(df)

2.读取 Excel 文件

df = pd.read_excel('data.xlsx')
print(df)

3.数据查看和选择

1.查看数据的前几行

print(df.head())  # 默认显示前 5 行
print(df.tail(3))  # 显示最后 3 行

2.选择特定列

print(df['列1'])  # 选择“列1”

3.选择特定行

print(df.iloc[0])  # 选择第一行
print(df.loc[0])   # 选择索引为 0 的行

4.数据操作

1.数据筛选

# 筛选出“列1”大于 1 的行
filtered_data = df[df['列1'] > 1]
print(filtered_data)

2.添加新列

df['新列'] = df['列1'] + df['列2']
print(df)

3.删除列

df.drop('新列', axis=1, inplace=True)  # axis=1 表示删除列
print(df)

5.数据统计

1.描述性统计

print(df.describe())  # 显示数据的统计信息

2.计算均值

mean_value = df['列1'].mean()
print("列1的均值:", mean_value)

6.数据保存

1.保存为 CSV 文件

df.to_csv('output.csv', index=False)  # index=False 表示不保存索引

2.保存为 Excel 文件

df.to_excel('output.xlsx', index=False)

7.示例

import pandas as pd

# 创建 DataFrame
data = {
    '姓名': ['Alice', 'Bob', 'Charlie'],
    '年龄': [25, 30, 35],
    '城市': ['北京', '上海', '广州']
}
df = pd.DataFrame(data)

# 查看数据
print("原始数据:")
print(df)

# 添加新列
df['工资'] = [5000, 6000, 7000]

# 筛选数据
filtered_df = df[df['年龄'] > 28]
print("\n年龄大于 28 的数据:")
print(filtered_df)

# 保存数据为 CSV 文件
df.to_csv('output.csv', index=False)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值