Python基础 _Pandas_csv、excel文件操作_pd.excel解析csv文件-优快云博客

本文链接：https://blog.youkuaiyun.com/2302_76951580/article/details/141862549

Pandas 可以通过 pd.read_csv() 函数读取 CSV 文件。常用参数包括：

import pandas as pd

df = pd.read_csv('data.csv')

Pandas 通过 pd.read_excel() 函数来读取 Excel 文件。常用参数包括：

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

使用 df.to_csv() 函数将 DataFrame 写入 CSV 文件。常用参数包括：

df.to_csv('output.csv', index=False)

使用 df.to_excel() 函数将 DataFrame 写入 Excel 文件。常用参数包括：

df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)

Pandas 允许在同一个 Excel 文件中操作多个工作表。

使用 sheet_name 参数指定要读取的多个工作表。

sheets_dict = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])

使用 pd.ExcelWriter() 可以在同一个文件中写入多个工作表。

with pd.ExcelWriter('output.xlsx') as writer:
    df1.to_excel(writer, sheet_name='Sheet1')
    df2.to_excel(writer, sheet_name='Sheet2')

Pandas 提供了多种方法来处理缺失值。

df.dropna()  # 删除包含缺失值的行
df.fillna(0)  # 用0填充缺失值

Pandas 允许根据条件对数据进行筛选。

filtered_df = df[df['column_name'] > 10]  # 筛选某列大于10的行

使用 pd.pivot_table() 可以生成数据透视表。

pivot_table = pd.pivot_table(df, values='column_name', index='index_column', columns='column_name', aggfunc='mean')

使用 df.groupby() 进行数据分组，并应用聚合函数。

grouped = df.groupby('column_name').sum()  # 按列分组并求和

import os

file_path = os.path.join('data', 'input.csv')
try:
    df = pd.read_csv(file_path)
except FileNotFoundError:
    print("File not found.")

df = pd.read_csv('large_file.csv', dtype={'column_name': 'float64'}, chunksize=10000)