def FilterTranslate(source):
source.encode()
temp = source
xx = u"([\s\u30a0-\u30ff\u3040-\u309f\u4e00-\u9fa5\u3000-\u303f\ufb00-\ufffd\u0030-\u0039\u0041-\u005a\u0061-\u007a]+)"
#日文 片假名 日文 片假名 中文 标点符号 数字 大写字母 小写
pattern = re.compile(xx)
results = pattern.findall(temp)
fina = ""
for result in results:
fina += result
return fina
| 正则 | 说明 |
| sub(pattern,repl,string) | 把字符串中的所有匹配表达式pattern中的地方替换成repl |
| [^**] | 表示不匹配此字符集中的任何一个字符 |
| \u4e00-\u9fa5 | 汉字的unicode范围 |
| \u0030-\u0039 | 数字的unicode范围 |
| \u0041-\u005a | 大写字母unicode范围 |
| \u0061-\u007a |
小写字母unicode范围 |
| \uAC00-\uD7AF | 韩文的unicode范围 |
| \u3040-\u31FF | 日文的unicode范围 |
|
\x80-\xff | 非ansi |
| \u4e00-\u9fa5 | 中文 |
| \uac00-\ud7ff | 韩文 |
| \u30a0-\u30ff | 日文 片假名 |
| \u3040-\u309f | 日文 平假名 |
| \u3000-\u303f\ufb00-\ufffd | 标点符号 |

本文详细探讨了Python中的正则表达式,包括基本语法、常用元字符、模式匹配、搜索与替换以及在实际问题中的应用案例,帮助读者掌握高效处理文本数据的技巧。
810

被折叠的 条评论
为什么被折叠?



