python去除常见标点符合以及空格
在处理中文语句进行分词前,标点符号比较占位置,可以使用下面方法清空掉。
import re
def drop_punctuation(text):
punc = '~`!#$%^&*()_+-=|\';"":/.,?><~·!@#¥%……&*()——+-=“:’;、。,?》{《}】【\n\]\[ '
new_text=re.sub(r"[%s]+" %punc, "",text)
return new_text
测试:
t1='1 距离川沙公路较近,但是公交指示不对,如果是"蔡陆线"的话,会非常麻烦.建议用别的路线.房间较为简单.'
qt = drop_punctuation(t1)
qt
结果:
'距离川沙公路较近但是公交指示不对如果是蔡陆线的话会非常麻烦建议用别的路线房间较为简单'
该博客介绍了如何使用Python的正则表达式库re去除中文句子中的常见标点符号和空格,为后续的分词处理做准备。示例代码展示了如何定义并应用drop_punctuation函数,以及测试用例。
4159

被折叠的 条评论
为什么被折叠?



