python去除常见标点符合以及空格

该博客介绍了如何使用Python的正则表达式库re去除中文句子中的常见标点符号和空格,为后续的分词处理做准备。示例代码展示了如何定义并应用drop_punctuation函数,以及测试用例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python去除常见标点符合以及空格

在处理中文语句进行分词前,标点符号比较占位置,可以使用下面方法清空掉。

import re

def drop_punctuation(text):
    punc = '~`!#$%^&*()_+-=|\';"":/.,?><~·!@#¥%……&*()——+-=“:’;、。,?》{《}】【\n\]\[ '
    new_text=re.sub(r"[%s]+" %punc, "",text)
    return new_text

测试:

t1='1    距离川沙公路较近,但是公交指示不对,如果是"蔡陆线"的话,会非常麻烦.建议用别的路线.房间较为简单.'
qt = drop_punctuation(t1)
qt

结果:

'距离川沙公路较近但是公交指示不对如果是蔡陆线的话会非常麻烦建议用别的路线房间较为简单'
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值