Pandas核心数据结构与数据导入导出完全指南

包含编程籽料、学习路线图、爬虫代码、安装包等!【点击领取】

一、Pandas简介
Pandas是Python中最强大的数据分析库之一,由Wes McKinney于2008年开发。它构建在NumPy之上,为Python提供了高效便捷的数据处理能力,特别适合处理结构化数据(如表格数据、时间序列等)。

二、Pandas核心数据结构

  1. Series(一维数据结构)
    Series是Pandas中最基本的数据结构,类似于一维数组或列表,但带有标签索引。
import pandas as pd

# 创建Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)

# 带自定义索引的Series
s2 = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(s2)

特点:

由一组数据和与之相关的索引组成

可以存储任何数据类型

索引可以自定义

  1. DataFrame(二维数据结构)
    DataFrame是Pandas中最常用的数据结构,类似于电子表格或SQL表。
# 创建DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Paris', 'London']
}
df = pd.DataFrame(data)
print(df)

特点:

可以看作是由多个Series组成的字典

每列可以是不同的数据类型

既有行索引也有列索引

  1. Index(索引对象)
    Pandas的索引对象负责管理轴标签和其他元数据。
# 索引操作
index = pd.Index([1, 2, 3, 4], name='numbers')
print(index)

三、数据导入

  1. 从CSV文件导入
# 基本导入
df = pd.read_csv('data.csv')

# 带参数的导入
df = pd.read_csv('data.csv', 
                encoding='utf-8',
                header=0,          # 指定表头行
                index_col=0,      # 指定索引列
                na_values=['NA'])  # 指定缺失值表示
  1. 从Excel文件导入
df = pd.read_excel('data.xlsx', 
                   sheet_name='Sheet1',
                   engine='openpyxl')  # 需要安装openpyxl
  1. 从数据库导入
import sqlite3

# 创建数据库连接
conn = sqlite3.connect('database.db')

# 读取SQL查询结果
df = pd.read_sql('SELECT * FROM table_name', conn)
  1. 从JSON导入
df = pd.read_json('data.json', orient='records')

四、数据导出

  1. 导出到CSV
df.to_csv('output.csv', 
          index=False,      # 不保存索引
          encoding='utf-8')
  1. 导出到Excel
df.to_excel('output.xlsx',
            sheet_name='Sheet1',
            index=False)
  1. 导出到数据库
df.to_sql('table_name', 
          conn, 
          if_exists='replace',  # 如果表存在则替换
          index=False)
  1. 导出到JSON
df.to_json('output.json', orient='records')

五、常用数据查看方法

# 查看前5行
df.head()

# 查看后5行
df.tail()

# 查看基本信息
df.info()

# 查看统计摘要
df.describe()

# 查看列名
df.columns

# 查看索引
df.index

六、总结
Pandas提供了Series和DataFrame两种核心数据结构,能够高效处理各种结构化数据。通过read_系列函数可以方便地从多种数据源导入数据,而to_系列方法则可以将处理好的数据导出到不同格式。掌握这些基本操作是进行数据分析的第一步。

最后:
希望你编程学习上不急不躁,按照计划有条不紊推进,把任何一件事做到极致,都是不容易的,加油,努力!相信自己!

文末福利
最后这里免费分享给大家一份Python全套学习资料,希望能帮到那些不满现状,想提升自己却又没有方向的朋友,也可以和我一起来学习交流呀。

包含编程资料、学习路线图、源代码、软件安装包等!【点击这里领取!】
① Python所有方向的学习路线图,清楚各个方向要学什么东西
② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例,学习不再是只会理论
④ 华为出品独家Python漫画教程,手机也能学习

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值