pandas的数据读取和生成

最新推荐文章于 2025-10-12 18:43:20 发布

原创最新推荐文章于 2025-10-12 18:43:20 发布 · 553 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #pandas #python

Padas 专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了如何使用pandas库导入CSV和Excel数据，创建DataFrame，以及进行数据操作如查看、提取和保存，包括使用loc和iloc函数。

1.pandas对csv和excel数据的导入

1.1数据的导入

1.2 用pandas创建一个DataFrame数据表

1.pandas对csv和excel数据的导入

1.1数据的导入

import pandas as pd
filename = 'data_name' #data_name表示数据的名称
df = pd.DataFrame(pd.read_csv(filename,header=1)) #文件后缀为.csv
df = pd.DataFrame(pd.read_excel('filename')) #文件后缀为.xlsx

1.2 用pandas创建一个DataFrame数据表

（1）指定列名称，行名默认从0开始

df = pd.DataFrame(
    {"姓名":["张三","李四","王五","李华","小明"], 
     "年龄":[18,20,19,21,22],
     "性别":['男 ', '男', ' 女 ', '女', '男'],
     "城市":['北京','上海','西安','成都','南京'],
     "职业":['教师','医生','学生','工人','程序员'],
     "爱好":['唱歌','跑步','玩游戏','打篮球','玩游戏']})

运行结果：

（2）通过columns指定列名称

df = pd.DataFrame(
    {"name":["张三","李四","王五","李华","小明"], 
     "age":[18,20,19,21,22],
     "gender":['男 ', '男', ' 女 ', '女', '男'],
     "city":['北京','上海','西安','成都','南京'],
     "profession":['教师','医生','学生','工人','程序员'],
     "hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
      columns =['name','age','gender','city','profession','hobby'])

运行结果：

（3）通过index指定行名称

df = pd.DataFrame(
    {"name":["张三","李四","王五","李华","小明"], 
     "age":[18,20,19,21,22],
     "gender":['男 ', '男', ' 女 ', '女', '男'],
     "city":['北京','上海','西安','成都','南京'],
     "profession":['教师','医生','学生','工人','程序员'],
     "hobby":['唱歌','跑步','玩游戏','打篮球','玩游戏']},
      columns =['name','age','gender','city','profession','hobby'],
      index= ['one','two','three','four','five'])

运行结果：

1.3 数据表的操作和引用

（1) 行列数大小

df.shape  #行列数大小值
df.shape[0]  #行数
df.shape[1]  #列数

(2) 空值信息

df.isnull()  #df的空值情况
df['name'].isnull()  #name列的空值情况
df[['name','hobby']].isnull()   #name和hobby列的空值情况

运行结果：

（3）唯一值信息

df['name'].unique()  #name列的唯一值情况

（4）查看数据表的值

df.values  #df的数据情况
df['name'].values  #name列的数据情况
df[['name','hobby']].values   #name和hobby列的数据情况

运行结果：

（5）查看行和列名称

df.columns  #列名称
df.index  #行名称

（6）查看表头、表尾

df.head() 
df.tail()

(7) 查看数据表的信息

df.info()

运行结果：

2. 数据的提取

主要通过loc和iloc函数完成，loc函数按行和列的标签值进行提取，iloc按行和列的位置进行提取

2.1 loc函数

df.loc['one'] #指定名称

df.loc['two':] #指定名称的片段数据

df.loc[['one','five']] #提取多个名称的数据

df.loc[['one','five'],'age'] #指定某行和列名称的数据

df.loc[['one','five'],'age':]

df.loc[['one','five'],['name','age','hobby']]

2.1 iloc函数

df.iloc[1]

df.iloc[[1,3]]

df.iloc[2:]

df.iloc[:,2]

df.iloc[:,[2,4]]

df.iloc[1,2:]

df.iloc[:,2:]

df.iloc[2:4,2:]

3.csv和excel格式的数据保存

#filename为文件名称，names代表表中每个sheet名称
df.to_excel('filename.xlsx', sheet_name='names')  
df.to_csv('filename.csv')

4.总结

该博客主要通过对数据的导入，查看，提取和保存操作做了详细的分析

pandas的数据读取和生成

1.pandas对csv和excel数据的导入

1.1数据的导入

1.2 用pandas创建一个DataFrame数据表

（1）指定列名称，行名默认从0开始

（2）通过columns指定列名称

（3）通过index指定行名称

1.3 数据表的操作和引用

（1) 行列数大小

(2) 空值信息

（3） 唯一值信息

（4）查看数据表的值

（5）查看行和列名称

（6）查看表头、表尾

(7) 查看数据表的信息

2. 数据的提取

2.1 loc函数

2.1 iloc函数

3.csv和excel格式的数据保存

4.总结

（3）唯一值信息