pandas处理文本特征之特殊字符剔除

最新推荐文章于 2023-03-23 11:31:38 发布

原创最新推荐文章于 2023-03-23 11:31:38 发布 · 9.1k 阅读

18 ·

CC 4.0 BY-SA版权

杂谈专栏收录该内容

5 篇文章

订阅专栏

该博客介绍了如何利用Python的正则表达式库`re`清理DataFrame中某列（如feature_1）的特殊字符。通过`clear_characters`函数，使用`W`匹配并替换所有非字母、数字、下划线的字符，从而标准化文本数据。此外，还展示了当自定义函数需要额外参数时，如何通过`apply`函数的`args`参数传递这些值。

假设我们有DataFrame数据data,feature_1列为文本数据列，且其中含有特殊字符。
首先我们认识两个正则表达式：
\w: 用来匹配字母、数字、下划线字符；
\W: 用来匹配所有与\w不匹配的字符。
可以发现，我们所说的特殊字符就在\W的范围内。

import re
def clear_characters(text):
	return re.sub('\W', '', text)
data[feature_1] = data[feature_1].apply(clear_characters)

注：对于apply函数，调用自定义函数时，默认不需要写参数，pandas会自己将feature_1特征的每一行的元素传入。但是，如果clear_characters()函数中需要用到一些其他参数时，可以使用apply函数的args传入，比如：

import re
def clear_characters(text， str_data):
	return re.sub('\W', '', text)
data[feature_1] = data[feature_1].apply(clear_characters, args=('ok',))