python—获取字符串格式的序列的中文字符,判别和提取中文字符的方法
第一步,先把字符串转为Unicode编码:file=str.decode('utf-8')#把utf-8的编码变成Unicode
第二步,利用正则表达式作为匹配匹配出中文(可以用来在中文文章中去除所有标点)pattern = re.compile(u'[\u4e00-\u9fa5]+')这句最重要,注意细节。filterdata = re.findall(pattern, file)这样filte...
原创
2018-05-27 17:26:04 ·
2100 阅读 ·
0 评论