(一)读取数据
一、导入.xlsx
基本导入
import pandas as pd
df = pd.read_excel(r"C:\Users\...\.test.xlsx")
指定参数
df = pd.read_excel(r"C:\Users\...\.test.xlsx", sheet_name = 'sheet1', index_col = 0,
header = 0, usecols = [0, 2])
1、指定sheet:
可通过设定sheet_name参数指定导入sheet,可指定具体名字,也可传入顺序,从0开始:sheet_name = 0
2、指定行索引:
设置index_col
3、指定列索引:
header默认为0,即第一行
4、指定导入列:
usecols 可指定某个值,或以列表形式传入多个值
二、导入.csv
基本导入
import pandas as pd
df = pd.read_csv(r"C:\Users\...\.test.csv")
参数
import pandas as pd
df = pd.read_csv(r"C:\Users\...\.test.csv", sep = ' ', nrows = 10,
engine = 'python', encoding = 'gbk')
1、指明分隔符
sep为逗号、空或制表符等
2、指明读取行数
nrows
3、指定编码格式
默认为UTF-8,若是csv(逗号分隔)(*.csv)格式的文件,需指定为gbk
4、engine
文件路径或文件名中包含中文时,可通过设置engine消除OSError:Initializing from file failed
同时,编码格式需改为utf-8-sig
5、其他
如指定行、列索引或导入某几列,同xlsx的设定
三、导入.txt
import pandas as pd
df = pd.read_table(r"C:\Users\...\.test.txt", sep = ' ')
也可导入csv,但需指明分隔符号