python中re.sub的使用 正则表达式

本文介绍如何使用Python的正则表达式(re模块)去除字符串中的数字、下划线及非字母符号。通过一个具体示例展示了re.sub()函数的用法,并解释了正则表达式中[^sw]|_|[0-9]的含义。

在python中,re就是regular expression的缩写,代表正则表达式,import re

sub是sunstitute的缩写,代表替换

 re.sub(r'([^\s\w]|_|[0-9])+','',text_string)  
首先
[^...] 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
这是个坑,^匹配的是开始的地方,但是加了中括号就不一样了。\s\w就是说空白字符和非字母数字

这个正则表达式的意思就是去除数字,_和非字母的符号


import re
text_string = re.sub(r'([^\s\w]|_|[0-9])+',''," I 3   _ I  3 ? _ love you")
print (text_string)


结果:

F:\Users\zhangzhen\Anaconda3\python.exe F:/Users/zhangzhen/PycharmProjects/人机大战/test/cidai.py
 I     I     love you

### 如何在 Python使用 `re.sub` 方法同时处理多个正则表达式Python 的 `re` 模块中,`re.sub` 是用于替换字符串中的匹配项的强大工具。然而,默认情况下它只支持单个正则表达式的替换操作。如果需要同时处理多个正则表达式,则可以通过组合多个调用来实现这一目标。 以下是几种常见的解决方案: #### 方案一:多次调用 `re.sub` 最简单的方法是依次应用不同的正则表达式及其对应的替换逻辑。这种方法虽然直观,但在性能上可能会稍逊于其他方案,尤其是在大规模数据处理场景下[^1]。 ```python import re text = "The price is $10 and the tax rate is 7%." # 替换单价部分 result = re.sub(r'\$\d+', 'USD_X', text) # 替换税率部分 final_result = re.sub(r'\d+%$', 'TAX_Y%', result) print(final_result) # 输出: The price is USD_X and the tax rate is TAX_Y%. ``` --- #### 方案二:定义统一的回调函数 当有多个正则表达式时,可以先将它们合并成一个复杂的正则表达式,并通过传递自定义的回调函数来分别处理每种情况。这种方式更加灵活且易于扩展[^3]。 ```python import re def multi_replace(match): """基于匹配对象决定具体的替换方式""" if match.group(0).startswith('$'): return 'USD_X' elif '%' in match.group(0): return 'TAX_Y%' else: return match.group(0) # 默认保持不变 text = "The price is $10 and the tax rate is 7%." pattern = r'\$\d+|\d+%' result = re.sub(pattern, multi_replace, text) print(result) # 输出: The price is USD_X and the tax rate is TAX_Y%. ``` 上述代码中,`\$\d+` 和 `\d+%` 被合并在同一个正则表达式里,而具体的行为由 `multi_replace` 函数控制。 --- #### 方案三:利用字典映射简化多模式替换 对于固定的替换规则集,还可以预先构建好模式到替代表达之间的对应关系表,从而进一步优化可读性和维护成本[^5]。 ```python import re replace_rules = { r'\$\d+': 'USD_X', r'\d+%$': 'TAX_Y%', } def apply_replacements(text, rules): for pattern, replacement in rules.items(): text = re.sub(pattern, replacement, text) return text text = "The price is $10 and the tax rate is 7%." result = apply_replacements(text, replace_rules) print(result) # 输出: The price is USD_X and the tax rate is TAX_Y%. ``` 此方法特别适合那些具有固定结构化需求的应用场合。 --- ### 总结 以上三种策略各有优劣,在实际开发过程中可以根据项目特点和个人偏好选择合适的方式。需要注意的是,随着正则表达式的数量增加或者其复杂度提升,应权衡效率与清晰度之间取舍[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值