机器学习基础—pandas读取表格文件
前言:上一期对pandas的数据结构,dataframe格式做了一个简要的介绍,这一期继续介绍机器学习中常见的表格文件读写问题,任然采用pandas包的内置函数对各类常见表格文件的读写进行介绍
1.excel文件读写(后缀为.xlsx)
利用pandas读取文件主要用到的函数时是read_xxx(),读取后的返回的数据格式为dataframe格式,下面对几种read_xxx()一一介绍
1.1 pd.read_excel()可以用来读取excel文件,函数定义:
pd.read_excel(io, sheet_name=0, header=0, skiprows=None,
skip_footer=0, index_col=None, names=None, usecols=None,
parse_dates=False, date_parser=None, na_values=None,
thousands=None, convert_float=True, converters=None,
dtype=None, true_values=None, false_values=None,
engine=None, squeeze=False, **kwds)
常用的参数解释:
-
sheet_name: excel文件中的表名
-
index_col: 使用哪一列作为行索引,默认从0开始
-
usecols: 读取表格中哪几列,必须是位置索引
-
header: 哪一行设置为列索引,默认是第一行,即header = 0
-
date_parser:解析日期的函数
-
parse_dates:尝试将数据解析为日期,默认为False。如果为True,则尝试解析所有列。此外,还可以指定需要解析的一组列号或者列名
-
names: 列索引
-
engine: 默认是C,如文件路径存在中文时,engine= “python”
-
encoding: 默认是utf-8,还可以是gbk
-
skiprows: 跳过前几行读取文件,默认从0开始
-
nrows: 读取多少行数据
-
converters: 列名跟函数之间的映射关系组成的字典
例如:
import pandas as pd
data = pd.read_excel('C:/Users/chepengyuan/Desktop/学生信息.xlsx')
data
姓名 | 年龄 | 学号 | 成绩 | |
---|---|---|---|---|
0 | 王益 | 20 | 1618402 | 90 |
1 | 时年 | 19 | 1618401 | 98 |
2 | 柳琴 | 21 | 1618302 | 89 |
3 | 萨蒂 | 20 | 1618301 | 88 |
1.2 pd.to_excel()可以用来写入excel文件,函数定义:
DataFrame.to_excel(excel_writer, sheet_name