python的正则匹配

最新推荐文章于 2023-04-26 09:39:44 发布

原创最新推荐文章于 2023-04-26 09:39:44 发布 · 642 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

1 篇文章

订阅专栏

本文详细探讨了Python中的正则表达式，包括基本语法、常用元字符、模式匹配、搜索与替换以及在实际问题中的应用案例，帮助读者掌握高效处理文本数据的技巧。

def FilterTranslate(source):
    source.encode()
    temp = source
    xx = u"([\s\u30a0-\u30ff\u3040-\u309f\u4e00-\u9fa5\u3000-\u303f\ufb00-\ufffd\u0030-\u0039\u0041-\u005a\u0061-\u007a]+)"
    #日文 片假名 日文 片假名 中文 标点符号 数字 大写字母 小写
    pattern = re.compile(xx)
    results = pattern.findall(temp)
    fina = ""
    for result in results:
        fina += result
    return fina

正则	说明
sub(pattern,repl,string)	把字符串中的所有匹配表达式pattern中的地方替换成repl
[^**]	表示不匹配此字符集中的任何一个字符
\u4e00-\u9fa5	汉字的unicode范围
\u0030-\u0039	数字的unicode范围
\u0041-\u005a	大写字母unicode范围
\u0061-\u007a	小写字母unicode范围
\uAC00-\uD7AF	韩文的unicode范围
\u3040-\u31FF	日文的unicode范围
\x80-\xff	非ansi
\u4e00-\u9fa5	中文
\uac00-\ud7ff	韩文
\u30a0-\u30ff	日文片假名
\u3040-\u309f	日文平假名
\u3000-\u303f\ufb00-\ufffd	标点符号