Python 文件导入数据导出数据去重drop_duplicates 去空值dropna 去空格strip 字段抽取slice 拆分split

一只小辣鸡

于 2018-05-25 01:17:16 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41471128/article/details/80445777

Python 专栏收录该内容

10 篇文章

订阅专栏

本文介绍了使用Pandas进行数据处理的基本方法，包括CSV、文本及Excel文件的读取与写入，数据清洗如去除重复值和处理缺失值，以及字段抽取和拆分等高级操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导入csv文件

from pandas import read_csv

df = read_csv('路径//文件名.csv')

或：

df = read_csv('路径//文件名.csv', encoding='UTF-8')

导入文本文件

from pandas import read_table

简易方式：

df = read_table('路径名//文件名.txt')

read_table函数语法：

df = read_table('file_path', names=['列名1','列名2',...], sep=' ', encoding='', ...)

#file_path：文件路径

#names：列名，默认为文件第一行为列名

#sep：分隔符，默认为空，表示默认导入为一列

#encoding：文件编码，中文需设置UTF-8

导入excel文件

from padans import read_excel

df = read_excel('file_path', sheetname='表名', header)

导出数据

导出文本文件

to_csv函数语法：

to_csv('file_path', sep=',', index=TRUE, header=TRUE)

#index：是否导出行序号，默认为TRUE，也就是导出行序号
#header：是否导出列名，默认为TRUE

重复值去除

drop_duplicates()

例：
from pandas import read_csv
df = read_csv('file_path//file_name.csv')
newDf = df.drop_duplicates()

缺失值处理

去除空值Nan：dropna()

清除字符型数据左右的空格：strip()

例：
newCol1 = df['col1'].str.strip()
df['col1'] = newCol1

字段抽取

slice(star,stop)

例：
#抽取电话号码列，先将数值转换成str类型
df['tel'] = df['tel'].astype(str)
#运营商
bands = df['tel'].str.slice(0,3)
#地区
areas = df['tel'].str.slice(3,7)
#号码段
nums = df['tel'].str.slice

字段拆分

split(sep, n, expand=False)

split(分割的字符串，分割为n列，是否展开为数据框)
返回值如果expand为Ture，则返回DATaFrame，False返回Series

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。