注:该学习笔记是根据曾志贤老师编写的《Python数据分析实战:从Excel轻松入门Pandas》所学习整理的笔记。
第二章 Pandas中数据的存储
这里写目录标题
一、读取Excel文件数据
注意:使用索引序号的方式读取工作表数据,默认索引序号是从0开始的,也就是说当读取第1个工作表时,pd.read——excel( )函数的第2参数不是1,而是0。
import pandas as pd
# 默认读取第0个工作表
df1 = pd.read_excel('2-1.xlsx')
# 使用索引号
df2 = pd.read_excel('2-1.xlsx', 0)
# 以名称方式读取工作表
df3 = pd.read_excel('2-1.xlsx', '成绩表')
二、读取CSV文件数据
import pandas as pd
df1 = pd.read_csv('2-2.csv')
三、保存为Excel文件格式
import pandas as pd
# 以名称方式读取工作表
df3 = pd.read_excel('2-1.xlsx', '成绩表')
# 保存为excel文件,并且不显示行号
df3.to_excel('2-1-1.xlsx', index=False)
四、保存为CSV文件格式
import pandas as pd
df1 = pd.read_csv('2-2.csv')
df1.to_csv('2-2-1.csv', index=False)
五、Pandas中表格的结构
- 从外部文件读取到Pandas中的数据是DataFrame表格。
- DataFrame表格的数据可以由多个Series数据构成。
- Series数据可以由数组、列表等可迭代对象构成。
- 为方便表达,将Pandas简写为pd,DataFrame简写为df,Series简写为s。
1、DataFrame数据结构
DataFrame的3个常用属性:
- 行索引:index
- 列索引:columns
- 数据区域:values
import pandas as pd
df = pd.read_excel('2-3.xlsx', 0)
# 获取行索引
print(df.index)
# 返回 RangeIndex(start=0, stop=5, step=1)
# 将行索引转换为列表
print(list(df.index))
# 返回 [0, 1, 2, 3, 4]
# 获取列索引
print(df.columns)
# 返回 Index(['姓名', '出生日期', '分数'], dtype='object')
# 将列索引转换为列表
print(list(df.columns))
# 返回 ['姓名', '出生日期', '分数']
# 获取数据区域
print(df.values)
# 返回数组结构
2、Series数据结构
Series数据的本质是带标签的一维数组
import pandas as pd
df = pd.read_excel('2-4.xlsx', 0)
for key, item in df.items():
# 返回列索引名称
print(key)
# 返回列数据
print(item)
print('------')
Python数据分析:Pandas操作Excel与CSV
文章介绍了如何使用Pandas在Python中读取和保存Excel及CSV文件,包括read_excel(),read_csv(),to_excel()和to_csv()函数的使用。此外,详细阐述了DataFrame和Series数据结构,以及它们的属性如index,columns和values。
1192






