[NLP]基于jieba对含特殊字符和空格的专有名字做分词
官网issue:https://github.com/fxsjy/jieba/issues/423
按照官网要求:
修改jieba根目录下init.py
搜索re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)", re.U)
改成re_han_default = re.compile("(.+)", re.U)...
原创
2019-04-02 14:01:31 ·
1494 阅读 ·
0 评论