Python 文件导入 数据导出 数据去重drop_duplicates 去空值dropna 去空格strip 字段抽取slice 拆分split

本文介绍了使用Pandas进行数据处理的基本方法,包括CSV、文本及Excel文件的读取与写入,数据清洗如去除重复值和处理缺失值,以及字段抽取和拆分等高级操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导入csv文件

from pandas import read_csv

df = read_csv('路径//文件名.csv')

或:

df = read_csv('路径//文件名.csv', encoding='UTF-8')


导入文本文件

from pandas import read_table

简易方式:

df = read_table('路径名//文件名.txt')

read_table函数语法:

df = read_table('file_path', names=['列名1','列名2',...], sep=' ', encoding='', ...)

#file_path:文件路径

#names:列名,默认为文件第一行为列名

#sep:分隔符,默认为空,表示默认导入为一列

#encoding:文件编码,中文需设置UTF-8


导入excel文件

from padans import read_excel

df = read_excel('file_path', sheetname='表名', header)


导出数据

导出文本文件

  • to_csv函数语法:

to_csv('file_path', sep=',', index=TRUE, header=TRUE)

#index:是否导出行序号,默认为TRUE,也就是导出行序号

#header:是否导出列名,默认为TRUE


重复值去除

  • drop_duplicates()

例:

from pandas import read_csv

df = read_csv('file_path//file_name.csv')

newDf = df.drop_duplicates()


缺失值处理

  • 去除空值Nan:dropna()
  • 清除字符型数据左右的空格strip()

例:

newCol1 = df['col1'].str.strip()

df['col1'] = newCol1


字段抽取

slice(star,stop)

例:

#抽取电话号码列,先将数值转换成str类型

df['tel'] = df['tel'].astype(str)

#运营商

bands = df['tel'].str.slice(0,3)

#地区

areas = df['tel'].str.slice(3,7)

#号码段

nums = df['tel'].str.slice

字段拆分

split(sep, n, expand=False)

split(分割的字符串,分割为n列,是否展开为数据框)

返回值如果expand为Ture,则返回DATaFrame,False返回Series



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值