文本处理(python)
1.正则表达式
保留汉字、数字、英文单词
regex = re.compile(ur"[^\u4e00-\u9f5aa-zA-Z0-9]")
s=u'hello我是,,,中国人'
s = regex.sub('', s) #将不满足要求的字符替换成空字符
map
map(function, sequence[, sequence, …]) -> list:将序列通过function进行映射,将映
原创
2016-07-22 18:23:29 ·
738 阅读 ·
0 评论