pandas(五) -- 文本处理

博客介绍了使用pandas进行文本处理的方法,先将pandas的series对象转成strings对象,之后便可使用字符串相关函数和方法,如计算某个字符出现的次数、将列名变为大写等,其余方法可查看字符串相关方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文本处理.–使用字符串处理函数
先将pandas的series对象转成strings对象,再使用字符串相关函数。

s = pd.Series(['A','b','C','bbhello','123',np.nan,'hj'])
0          A
1          b
2          C
3    bbhello
4        123
5        NaN
6         hj
dtype: object
print(type(s),type(s.str))
<class 'pandas.core.series.Series'> <class 'pandas.core.strings.StringMethods'>

将series对象转成strings对象后,就可以使用字符串相关的方法了。

  1. 计算某个字符出现的次数.count()
s.str.count('b')
0    0.0
1    1.0
2    0.0
3    2.0
4    0.0
5    NaN
6    0.0
dtype: float64

其余方法见:字符串相关方法

  1. 列名变为大写df.columns = df.columns.str.upper()
  2. .split()中的expand参数
s = pd.Series(['a,b,c','1,2,3',['a,,,c'],np.nan])
print(s)
print(s.str.split(',', expand=True))
print(s.str.split(',', expand=True, n = 1))

s

0    [a, b, c]
1    [1, 2, 3]
2          NaN
3          NaN
dtype: object
s.str.split(',', expand=True)
     0    1    2
0    a    b    c
1    1    2    3
2  NaN  NaN  NaN
3  NaN  NaN  NaN
s.str.split(',', expand=True, n = 1),切分一次,且扩展
     0    1
0    a  b,c
1    1  2,3
2  NaN  NaN
3  NaN  NaN

切片

s.str[0] # 获取s的每条数据的第一个元素,遇NaN跳过
0      A
1      b
2      C
3      b
4      1
5    NaN
6      h
dtype: object
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值