python2使用正则表达式中的编码格式问题

>>> address = '浙江省温州市龙湾区海城街道水暖市场341号'
>>> address
'\xe6\xb5\x99\xe6\xb1\x9f\xe7\x9c\x81\xe6\xb8\xa9\xe5\xb7\x9e\xe5\xb8\x82\xe9\xbe\x99\xe6\xb9\xbe\xe5\x8c\xba\xe6\xb5\xb7\xe5\x9f\x8e\xe8\xa1\x97\xe9\x81\x93\xe6\xb0\xb4\xe6\x9a\x96\xe5\xb8\x82\xe5\x9c\xba341\xe5\x8f\xb7'
>>> address.decode('utf-8')
u'\u6d59\u6c5f\u7701\u6e29\u5dde\u5e02\u9f99\u6e7e\u533a\u6d77\u57ce\u8857\u9053\u6c34\u6696\u5e02\u573a341\u53f7'
>>> add = address.decode('utf-8')
>>> span_tmp = re.search(r'[\da-zA-Z一二三四五六七八九十]+号$', add)
>>> span_tmp
>>> span_tmp = re.search(u'[\da-zA-Z一二三四五六七八九十]+号$', add)
>>> span_tmp
<_sre.SRE_Match object at 0x166A1058>
>>> span_tmp.group(0)
u'341\u53f7'
Python使用正则表达式匹配中文字符,你可以使用Unicode属性或者特定的Unicode范围来匹配。中文字符一般位于Unicode编码的Basic Multilingual Plane (BMP)中的CJK统一汉字区域,其编码范围大致是从`\u4e00`到`\u9fff`。以下是一些示例代码,展示了如何使用正则表达式来匹配中文字符: ```python import re # 使用Unicode范围匹配中文字符 pattern = r'[\u4e00-\u9fff]' text = "这是一个包含中文字符的字符串:中文" matches = re.findall(pattern, text) print(matches) # 输出匹配到的中文字符列表 # 使用Unicode属性 \p{L} 匹配任何语言的字母字符,包括中文 pattern = r'\p{L}' text = "这是一个包含中文字符的字符串:中文" matches = re.findall(pattern, text) print(matches) # 输出匹配到的中文字符列表 # 使用re.UNICODE或re.U标志,这样\w、\W、\b、\B、\d、\D、\s和\S会匹配所有字符 pattern = r'\w' text = "这是一个包含中文字符的字符串:中文" matches = re.findall(pattern, text, flags=re.UNICODE) print(matches) # 输出匹配到的中文字符和字母数字字符列表 # 注意:在Python 3中,正则表达式模块默认就是支持Unicode的 ``` 在使用正则表达式匹配中文字符时,你需要注意Python版本和库对Unicode的支持。在Python 3中,正则表达式模块默认支持Unicode,而Python 2可能需要在模式字符串中加入`u`前缀来确保模式字符串被作为Unicode字符串处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值