python数据读取和预处理

这篇博客详细介绍了如何使用Python进行数据读取,包括.xlsx、.csv、.txt和sql文件的导入,以及数据预处理的步骤,如处理缺失值、重复值,类型转换,设置和操作索引,特别是时间数据的处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(一)读取数据

一、导入.xlsx

基本导入

import pandas as pd
df = pd.read_excel(r"C:\Users\...\.test.xlsx")

指定参数

df = pd.read_excel(r"C:\Users\...\.test.xlsx", sheet_name = 'sheet1', index_col = 0,
	 header = 0, usecols = [0, 2]

1、指定sheet
可通过设定sheet_name参数指定导入sheet,可指定具体名字,也可传入顺序,从0开始:sheet_name = 0

2、指定行索引
设置index_col

3、指定列索引
header默认为0,即第一行

4、指定导入列
usecols 可指定某个值,或以列表形式传入多个值

二、导入.csv

基本导入

import pandas as pd
df = pd.read_csv(r"C:\Users\...\.test.csv")

参数

import pandas as pd
df = pd.read_csv(r"C:\Users\...\.test.csv", sep = ' ', nrows = 10,
	 engine = 'python', encoding = 'gbk')

1、指明分隔符
sep为逗号、空或制表符等

2、指明读取行数
nrows

3、指定编码格式
默认为UTF-8,若是csv(逗号分隔)(*.csv)格式的文件,需指定为gbk

4、engine
文件路径或文件名中包含中文时,可通过设置engine消除OSError:Initializing from file failed
同时,编码格式需改为utf-8-sig

5、其他
如指定行、列索引或导入某几列,同xlsx的设定

三、导入.txt

import pandas as pd
df = pd.read_table(r"C:\Users\...\.test.txt", sep = ' ')

也可导入csv,但需指明分隔符号

四、导入sql


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值