向量化字符串操作
使用pyhton的一个优势就是字符串处理起来比较容易。在此基础上创建的pandas同样提供了一系列向量化字符串操作,他们都是在处理(清理)现实工作中的数据时不可或缺的功能。向量化操作简化了纯数值的数组操作语法——我们不需要再担心数组的长度或维度,只需要关心需要的操作。然而,由于numpy并没有为字符串数组提供简单的接口,因此需要通过频繁的for循环(列表生成式)来解决问题。
Pandas为包含字符串的Series和Index对象提供了str属性堪称是两全其美的方法,他可以满足向量化字符串操作的需求,又可以正确的处理缺失值。
import pandas as pd
data = ['peter', 'paul', None, 'mary', 'guido']
names = pd.Series(data)
#将字符串转化为大写
names.str.capitialize()
#输出结果:
0 Peter
1 Paul
2 None