目录
1.pandas对csv和excel数据的导入
1.1数据的导入
import pandas as pd
filename = 'data_name' #data_name表示数据的名称
df = pd.DataFrame(pd.read_csv(filename,header=1)) #文件后缀为.csv
df = pd.DataFrame(pd.read_excel('filename')) #文件后缀为.xlsx
1.2 用pandas创建一个DataFrame数据表
(1)指定列名称,行名默认从0开始
df = pd.DataFrame(
{"姓名":["张三","李四","王五","李华","小明"],
"年龄":[18,20,19,21,22],
"性别":['男 ', '男', ' 女 ', '女', '男'],
"城市":['北京','上海','西安','成都','南京'],
"职业":['教师','医生','学生','工人','程序员'],
"爱好":['唱歌','跑步','玩游戏','打篮球','玩游戏']})
运行结果:

(2)通过columns指定列名称
df = pd.DataFrame(
{"name":["张三","李四","王五","李华","小明"],
"age":[18,20,19,21,22],
"gender":['男 ', '男', ' 女 ', '女', '男'],
"city":['北京','上海','西安','成都','南京'],
"profession":['教师','医生','学生','工人','程序员'],
"hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
columns =['name','age','gender','city','profession','hobby'])
运行结果:

(3)通过index指定行名称
df = pd.DataFrame(
{"name":["张三","李四","王五","李华","小明"],
"age":[18,20,19,21,22],
"gender":['男 ', '男', ' 女 ', '女', '男'],
"city":['北京','上海','西安','成都','南京'],
"profession":['教师','医生','学生','工人','程序员'],
"hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
columns =['name','age','gender','city','profession','hobby'],
index= ['one','two','three','four','five'])
运行结果:

1.3 数据表的操作和引用
(1) 行列数大小
df.shape #行列数大小值
df.shape[0] #行数
df.shape[1] #列数

(2) 空值信息
df.isnull() #df的空值情况
df['name'].isnull() #name列的空值情况
df[['name','hobby']].isnull() #name和hobby列的空值情况
运行结果:



(3) 唯一值信息
df['name'].unique() #name列的唯一值情况
![]()
(4)查看数据表的值
df.values #df的数据情况
df['name'].values #name列的数据情况
df[['name','hobby']].values #name和hobby列的数据情况
运行结果:

![]()

(5)查看行和列名称
df.columns #列名称
df.index #行名称
![]()
![]()
(6)查看表头、表尾
df.head()
df.tail()

(7) 查看数据表的信息
df.info()
运行结果:

2. 数据的提取
主要通过loc和iloc函数完成,loc函数按行和列的标签值进行提取,iloc按行和列的位置进行提取
2.1 loc函数
df.loc['one'] #指定名称

df.loc['two':] #指定名称的片段数据

df.loc[['one','five']] #提取多个名称的数据

df.loc[['one','five'],'age'] #指定某行和列名称的数据

df.loc[['one','five'],'age':]

df.loc[['one','five'],['name','age','hobby']]

2.1 iloc函数
df.iloc[1]

df.iloc[[1,3]]

df.iloc[2:]

df.iloc[:,2]

df.iloc[:,[2,4]]

df.iloc[1,2:]

df.iloc[:,2:]

df.iloc[2:4,2:]

3.csv和excel格式的数据保存
#filename为文件名称,names代表表中每个sheet名称
df.to_excel('filename.xlsx', sheet_name='names')
df.to_csv('filename.csv')
4.总结
该博客主要通过对数据的导入,查看,提取和保存操作做了详细的分析
本文详细介绍了如何使用pandas库导入CSV和Excel数据,创建DataFrame,以及进行数据操作如查看、提取和保存,包括使用loc和iloc函数。
353

被折叠的 条评论
为什么被折叠?



