def FilterTranslate(source):
source.encode()
temp = source
xx = u"([\s\u30a0-\u30ff\u3040-\u309f\u4e00-\u9fa5\u3000-\u303f\ufb00-\ufffd\u0030-\u0039\u0041-\u005a\u0061-\u007a]+)"
#日文 片假名 日文 片假名 中文 标点符号 数字 大写字母 小写
pattern = re.compile(xx)
results = pattern.findall(temp)
fina = ""
for result in results:
fina += result
return fina
正则 | 说明 |
sub(pattern,repl,string) | 把字符串中的所有匹配表达式pattern中的地方替换成repl |
[^**] | 表示不匹配此字符集中的任何一个字符 |
\u4e00-\u9fa5 | 汉字的unicode范围 |
\u0030-\u0039 | 数字的unicode范围 |
\u0041-\u005a | 大写字母unicode范围 |
\u0061-\u007a |
小写字母unicode范围 |
\uAC00-\uD7AF | 韩文的unicode范围 |
\u3040-\u31FF | 日文的unicode范围 |
\x80-\xff | 非ansi |
\u4e00-\u9fa5 | 中文 |
\uac00-\ud7ff | 韩文 |
\u30a0-\u30ff | 日文 片假名 |
\u3040-\u309f | 日文 平假名 |
\u3000-\u303f\ufb00-\ufffd | 标点符号 |