Python3 提取中文的正则表达式

最新推荐文章于 2025-05-25 21:21:14 发布

super6662321313

最新推荐文章于 2025-05-25 21:21:14 发布

阅读量5.4k

点赞数 2

CC 4.0 BY-SA版权

文章标签： Python3

本文链接：https://blog.youkuaiyun.com/ASUKA2020/article/details/83925691

我用 Python3 专栏收录该内容

17 篇文章

订阅专栏

本文介绍了一种使用Python的正则表达式模块(re)从包含HTML标签的字符串中提取中文字符的方法。通过定义一个专门针对中文字符的正则表达式模式，成功地从测试文本中提取出了所有的中文词汇。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import re

# 测试文本
test = '<h1>hello 你好, world 世界</h1>'

# 中文匹配正则
chinese_pattern = '[\u4e00-\u9fa5]+'
says = re.findall(chinese_pattern, test)

# 输出提取的内容
hi = ''
for say in says:
    # print(say)
    hi += say + ','
hi = hi.strip(',')

# 打印结果：你好,世界
print(hi)