Python之所以能够成为流行的数据分析语言,有一部分原因在于其简洁易用的字符串处理能力。
Python的字符串对象封装了很多开箱即用的内置方法,处理单个字符串时十分方便;对于Excel、csv等表格文件中整列的批量字符串操作,pandas库也提供了简洁高效的处理函数,几乎与内置字符串函数一一对应。也就是说:
-
单个字符串处理,用Python内置的字符串方法;
-
表格整列的字符串处理,用pandas库中的字符串函数;
本文就以常用的数据处理需求,来对比使用以上两种方式的异同,从而加深对 Python 和 pandas 字符串操作的理解。(本文所有数据都是为了演示用的假数据,切勿当真!)

)
一、替换(去除空格)
场景:在问卷收集的姓名字段中,不少填写者会误输入空格,造成数据匹配不一致的问题。
Python
names = '刘 备、关 羽、 张 飞、赵 云、马 超、黄 忠'
names = names.replace(' ','')
print(names)
output
刘备、关羽、张飞、赵云、马超、黄忠
pandas
df['姓名'] = df['姓名'].str.replace(' ','')
output

pandas替换空格
二、分列
场景:在问卷收集数据的时候,多选题的数据往往是带有分隔符的。在分类汇总前往往需要按分隔符进行分列。

问卷中多选数据导出
Python
hobbyStr = "足球┋排球┋羽毛球┋篮球"
hobbyList = hobbyStr.split('┋')
output
['足

本文介绍了Python和pandas库在处理Excel数据时的字符串操作,包括替换空格、分列、切片、补齐数据、正则表达式以及apply函数的应用。通过实例展示了如何在数据清洗环节中有效地进行字符串处理,提升数据分析效率。
最低0.47元/天 解锁文章
6290

被折叠的 条评论
为什么被折叠?



