Pandas核心数据结构与数据导入导出完全指南

最新推荐文章于 2025-08-25 13:50:23 发布

原创最新推荐文章于 2025-08-25 13:50:23 发布 · 709 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #数据结构 #开发语言 #python #编程语言 #Python技巧 #Python教程

包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】

一、Pandas简介
Pandas是Python中最强大的数据分析库之一，由Wes McKinney于2008年开发。它构建在NumPy之上，为Python提供了高效便捷的数据处理能力，特别适合处理结构化数据（如表格数据、时间序列等）。

二、Pandas核心数据结构

Series（一维数据结构）
Series是Pandas中最基本的数据结构，类似于一维数组或列表，但带有标签索引。

import pandas as pd

# 创建Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

# 带自定义索引的Series
s2 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s2)

特点：

由一组数据和与之相关的索引组成

可以存储任何数据类型

索引可以自定义

DataFrame（二维数据结构）
DataFrame是Pandas中最常用的数据结构，类似于电子表格或SQL表。

# 创建DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Paris', 'London']
}
df = pd.DataFrame(data)
print(df)

特点：

可以看作是由多个Series组成的字典

每列可以是不同的数据类型

既有行索引也有列索引

Index（索引对象）
Pandas的索引对象负责管理轴标签和其他元数据。

# 索引操作
index = pd.Index([1, 2, 3, 4], name='numbers')
print(index)

三、数据导入

从CSV文件导入

# 基本导入
df = pd.read_csv('data.csv')

# 带参数的导入
df = pd.read_csv('data.csv', 
                encoding='utf-8',
                header=0,          # 指定表头行
                index_col=0,      # 指定索引列
                na_values=['NA'])  # 指定缺失值表示

从Excel文件导入

df = pd.read_excel('data.xlsx', 
                   sheet_name='Sheet1',
                   engine='openpyxl')  # 需要安装openpyxl

从数据库导入

import sqlite3

# 创建数据库连接
conn = sqlite3.connect('database.db')

# 读取SQL查询结果
df = pd.read_sql('SELECT * FROM table_name', conn)

从JSON导入

df = pd.read_json('data.json', orient='records')

四、数据导出

导出到CSV

df.to_csv('output.csv', 
          index=False,      # 不保存索引
          encoding='utf-8')

导出到Excel

df.to_excel('output.xlsx',
            sheet_name='Sheet1',
            index=False)

导出到数据库

df.to_sql('table_name', 
          conn, 
          if_exists='replace',  # 如果表存在则替换
          index=False)

导出到JSON

df.to_json('output.json', orient='records')

五、常用数据查看方法

# 查看前5行
df.head()

# 查看后5行
df.tail()

# 查看基本信息
df.info()

# 查看统计摘要
df.describe()

# 查看列名
df.columns

# 查看索引
df.index

六、总结
Pandas提供了Series和DataFrame两种核心数据结构，能够高效处理各种结构化数据。通过read_系列函数可以方便地从多种数据源导入数据，而to_系列方法则可以将处理好的数据导出到不同格式。掌握这些基本操作是进行数据分析的第一步。

最后：
希望你编程学习上不急不躁,按照计划有条不紊推进,把任何一件事做到极致,都是不容易的,加油,努力！相信自己！

文末福利
最后这里免费分享给大家一份Python全套学习资料，希望能帮到那些不满现状，想提升自己却又没有方向的朋友，也可以和我一起来学习交流呀。

包含编程资料、学习路线图、源代码、软件安装包等！【点击这里领取！】
① Python所有方向的学习路线图，清楚各个方向要学什么东西
② 100多节Python课程视频，涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例，学习不再是只会理论
④ 华为出品独家Python漫画教程，手机也能学习
在这里插入图片描述