Python正则\w匹配中文的问题

最新推荐文章于 2025-05-20 11:32:35 发布

土掉渣的二傻子

最新推荐文章于 2025-05-20 11:32:35 发布

阅读量3.7k

点赞数 2

CC 4.0 BY-SA版权

文章标签： python 正则 \w 中文

本文链接：https://blog.youkuaiyun.com/suzimuyu99/article/details/80924402

本文探讨了Python3中使用正则表达式w进行字符串匹配时遇到的问题，即该模式不仅匹配字母数字和下划线，还会意外地匹配到中文字符。文章通过示例展示了如何通过添加re.A标志来限制匹配范围，使其仅适用于ASCII字符。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在py3的时候，我想匹配字符串中的字母，直接用\w，匹配字符数字和下划线

def reg():
    pattern = re.compile(r'(\w+)')
    text = '*心机B_DI*梗塞I_DI*'
    # pattern = re.compile(r'([A-Z]_[A-Z]+)')
    res = pattern.findall(text)
    print(res)

['心机B_DI', '梗塞I_DI']

结果竟然连中文都被匹配出来了，查了一下，

\w匹配的是能组成单词的字符，在python3 中re默认支持的是unicode字符集，当然也支持汉字。只要加入re.A就可以解决这样问题，当然用注释掉的部分是安全可以匹配出来的。

def reg():
    pattern = re.compile(r'(\w+)', re.A)
    text = '*心机B_DI*梗塞I_DI*'
    # pattern = re.compile(r'([A-Z]_[A-Z]+)')
    res = pattern.findall(text)
    print(res)

['B_DI', 'I_DI'] A是ascii码

py2中不会有这样的问题

>>> import re
>>> pattern = re.compile(r'(\w+)')
>>> text = '*心机B_DI*梗塞I_DI*'
>>> res = pattern.findall(text)
>>> print res
['B_DI', 'I_DI']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

土掉渣的二傻子

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python正则表达式匹配中文

pytorchCode的博客

10-04

2943

中文字符的Unicode编码范围是"\u4e00-\u9fff"，其中"\u4e00"表示第一个汉字的Unicode编码，"\u9fff"表示最后一个汉字的Unicode编码。根据具体的匹配需求，我们可以灵活地组合正则表达式元字符和中文字符范围，实现更精确的匹配。除了匹配中文字符，我们还可以结合其他正则表达式元字符来实现更复杂的匹配需求。例如，如果我们想匹配以中文开头和结尾的字符串，可以使用。表示以一个或多个中文字符开头，中间可以包含字母、数字、空格和其他字符，最后以一个或多个中文字符结尾。

Python中用正则表达式匹配文本（Python经典编程案例）

数据知道的博客

09-21

3万+

文本如下：第一行为空行爬虫任务报警 01:45:21 scrapyd==》爬虫任务异常死亡报警 hostname: scrapyd-chinabond-1 error_count: Process died: exitstatus=None ,project: chinabond_fast_spider,spider: ah_sina_com_cn,job: 28395818dbcb11e...

参与评论您还未登录，请先登录后发表或查看评论

python正则匹配中文

土豆片的博客

12-15

1106

由于需求原因，需要匹配提取中文，大量google下，并没有我需要的。花了一个小时大概测试，此utf8中文通过，特留文。参考： http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.youkuaiyun.com/u/20070404/15/b011aa83-f9b7-

python正则表达式

810cheng

05-20

1122

正则表达式

python正则如何匹配中文汉字

最新发布

记录学习的过程

05-20

1269

正则表达式是处理文本数据的强大工具，Python通过re模块提供了完整的正则表达式功能。本文详细介绍了正则表达式的基础概念、核心语法及其在数据验证、提取、清洗等场景中的应用。文章还探讨了re模块的常用函数，如match、search、findall等，并对比了它们的使用场景和性能。此外，文章深入讲解了正则表达式的高级技巧，如非贪婪匹配、前后查找断言和条件匹配，并提供了性能优化建议和最佳实践，帮助读者更高效地使用正则表达式进行文本处理。

python中文正则表达式匹配

returnadsss的博客

02-03

1194

python对中文进行正则匹配的示例写法，可以抽取所需的中文信息

python正则中如何匹配汉字

qq_16069927的博客

08-05

3万+

这里边重点用到了 r'[\u4e00-\u9fa5]+' 的正则规则，表示1到多个任意汉字。 import re str1='hjggj小vjjk明' pat=re.compile(r'[\u4e00-\u9fa5]+') result=pat.findall(str1) print(result) # 输出['小', '明'] ...

python正则匹配中文_python 正则表达式匹配中文-阿里云开发者社区

weixin_39519741的博客

12-02

167

python 正则表达式匹配中文文件编码为 utf-8设置默认编码为 utf-8中文需要转换为 \u 形式的编码，也就是编码，轮换方法，cmd 下执行 python 进入 python 命令提示符模式执行：>>> u'中文'.encode('unicode_escape')输出为：'\\u4e2d\\u6587'使用示例：import sysdefaultencoding =...

python的正则表达式'\w'居然可以匹配中文

霜叶的博客

06-19

3231

一、正则表达式总结较好的网址 https://www.jb51.net/tools/regexsc.htm 二、正则表达式先行断言和后行断言问题详解 https://www.cnblogs.com/sdgjytu/p/3669364.html (?=pattern) 正向先行断言代表字符串中的一个位置，紧接该位置之后的字符序列能够匹配pattern。 (?!pattern) 负向先...

python正则匹配汉字

qq_39314099的博客

03-08

1万+

python正则匹配汉字的规则为：[\u4e00-\u9fa5] 后面可以加一个+，匹配多个汉字。例子如下： print(re.findall(r'[\u4e00-\u9fa5]+', '这是测试用例'))

【Python爬虫实战】正则：中文匹配与贪婪非贪婪模式详解

易辰的博客

10-12

1933

正则表达式是一种强大的工具，可以帮助我们在文本处理中灵活高效地匹配、查找、替换各种字符和字符串模式。对于中文字符的处理，正则表达式尤其有用，因为它可以通过 Unicode 范围直接匹配常用的汉字及标点符号。此外，正则表达式中的贪婪和非贪婪模式提供了不同的匹配策略，使我们能够更灵活地控制匹配的长度和范围。这篇文章将通过一些示例介绍如何使用正则表达式匹配中文字符，以及如何利用贪婪和非贪婪模式进行不同方式的匹配。正则表达式通过 Unicode 范围可以轻松匹配中文字符。使用。

python正则表达匹配汉字

chivalry

01-06

3881

import os import codecs import re ''' Created on 2012-3-29 ''' log = codecs.open('wiki/tt.txt','r','gbk') line = log.readline() m = re.match(ur"[\u4e00-\u9fa5]",line[4]) if m

python正则表达式匹配中文汉字

finny7的博客

10-21

4817

python正则匹配汉字，用来计算汉字字数，有两种方法： 1 [\u4e00-\u9fa5] 2 [^\x00-\xff] 两种匹配方式的区别： [\u4e00-\u9fa5] 匹配中文字符的正则表达式 [^\x00-\xff] 匹配双字节字符(包括汉字在内)，这里会匹配出：中文 “？”等符号。如果纯匹配汉字，建议使用[\u4e00-\u9fa5]即可，方便计算字数。 ...

python正则表达式匹配中文人名

10-18

在Python中，正则表达式（Regular Expression）是一种强大的文本处理工具，可以用于匹配字符串模式。对于匹配中文人名，由于中文字符不是简单的ASCII字符，我们需要考虑字库中的常用姓氏和名字组合，以及一些常见的命名规则。匹配中文人名的一个简单示例通常会包含常见姓氏和名字的组合，例如使用`\w`代表汉字、英文字符和数字，结合`+`表示一个或多个连续的字符： ```python import re # 示例正则表达式，匹配单字姓和双字名 name_pattern = r"^(?:(?:\b[^\u4e00-\u9fa5]+)\s+){1,2}(?:\b[\u4e00-\u9fa5]{2,}\b)$" def match_chinese_name(text): pattern = re.compile(name_pattern) matches = pattern.findall(text) return matches # 使用示例 text = "张三李四王五" print(match_chinese_name(text)) ``` 这个例子只能匹配大部分常见的中文人名，实际应用中可能需要更复杂的正则表达式或者利用分词库来进行精确匹配，因为中文姓名的结构多样且有变体。