
数据清洗
lllwxy
这个作者很懒,什么都没留下…
展开
-
python拆分中英文混合字符串
#coding=utf-8 import re s = 'hi新手oh'.decode('utf-8') #举个栗子是字符串s,为了匹配下文的unicode形式,所以需要解码p = re.compile(ur'[\u4e00-\u9fa5]') #这里是精髓,[\u4e00-\u9fa5]是匹配所有中文的正则,因为是unicode形式,所以也要转为ur print p.split(s原创 2016-12-21 16:08:05 · 13584 阅读 · 1 评论 -
用几十行代码实现python中英文分词
# -*- coding:utf-8 -*- #写了一个简单的支持中文的正向最大匹配的机械分词,其它不用解释了,就几十行代码#附:搜狗词库下载地址:http://vdisk.weibo.com/s/7RlE5 import string__dict = {} def load_dict(dict_file='words.dic'): #加载词库,把词库加载成一个转载 2016-12-21 16:58:19 · 4549 阅读 · 0 评论