### Pandas 文件格式读写操作教程
#### 1. CSV文件的读取与保存
Pandas 提供了 `read_csv` 方法用于从 CSV 文件中加载数据到 DataFrame 中。同样,也可以使用 `to_csv` 将 DataFrame 数据保存为 CSV 文件。
以下是具体的代码示例:
```python
import pandas as pd
# 读取CSV文件
df = pd.read_csv('file.csv') # 加载本地CSV文件 [^1]
# 保存DataFrame为CSV文件
df.to_csv('output.csv', index=False) # 不保存行索引 [^1]
```
---
#### 2. JSON文件的读取与保存
对于JSON格式的数据,Pandas 支持通过 `read_json` 和 `to_json` 进行读取和存储。无论是本地文件还是远程 URL 都支持。
具体实现如下所示:
```python
# 读取本地JSON文件
df = pd.read_json('data.json') # 自动解析为DataFrame对象 [^3]
# 从URL读取JSON数据
url = 'https://example.com/data.json'
df_url = pd.read_json(url) # 直接从网络地址获取数据
# 保存DataFrame为JSON文件
df.to_json('output.json', orient='records')
```
---
#### 3. Excel文件的读取与保存
针对Excel文件的操作,Pandas 使用 `read_excel` 来读取 `.xls` 或 `.xlsx` 格式的文件,并提供 `to_excel` 方法导出数据至 Excel 表格。
注意:需要安装额外依赖库 `openpyxl` 或 `xlrd` 才能正常运行这些功能。
```python
# 安装必要模块 (如果尚未安装)
!pip install openpyxl xlrd
# 读取Excel文件
df_excel = pd.read_excel('file.xlsx', sheet_name='Sheet1')
# 导出DataFrame为Excel文件
df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)
```
---
#### 4. SQL数据库的交互
当涉及关系型数据库时,Pandas 可借助 SQLAlchemy 库连接各种类型的数据库(如 SQLite, MySQL)。它允许直接查询并将结果作为 DataFrame 返回;或者反过来把现有 DataFrame 插入到指定表中。
下面是基于SQLite的一个例子:
```python
from sqlalchemy import create_engine
# 创建引擎实例
engine = create_engine('sqlite:///database.db')
# 查询SQL语句并返回DataFrame
query = "SELECT name, salary, department FROM employees"
sql_df = pd.read_sql(query, engine)
# 计算各部门平均工资
avg_salary_by_dept = sql_df.groupby('department')['salary'].mean()
# 将DataFrame存回SQL表
avg_salary_by_dept.to_sql(name='average_salaries_per_department', con=engine, if_exists='replace', index=True)
```
上述片段说明了如何执行基本SQL命令以及后续数据分析流程[^4]。
---
#### 5. 多层次索引(MultiIndex)的应用场景
除了常规单维度索引外,在某些复杂情况下可能需要用到多级索引结构。这时可以依靠 MultiIndex 构建更加灵活的数据模型。
例如定义一个多层列名体系:
```python
arrays = [['A','A','B','B'], ['foo','bar','foo','bar']]
tuples = list(zip(*arrays))
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
df_multi_indexed = pd.DataFrame([[0,1,2,3], [4,5,6,7]], columns=index)
print(df_multi_indexed)
```
这段脚本演示了怎样构建一个具有双重分类标签的表格布局[^2]。
---
### 总结
综上所述,Pandas 是一种强大而易用的数据处理工具包,适用于多种常见文件类型之间的相互转换及其高级特性应用开发之中。