
NLP
Leo_Xu06
深度厌学中...
展开
-
用scikit-learn的三种词袋(BoW)生成方法为机器学习任务准备文本数据
用scikit-learn为机器学习任务准备文本数据翻译 2017-09-30 23:43:17 · 10230 阅读 · 0 评论 -
爬虫常用的正则表达方式
python里的正则化库re,使用方法: import re line = 'boooooobby123' regex_str = "^b.*3$" re.match(regex_str, line) 正则化用到的特殊字符 ^ $ * ? {2} {2, } {2,5} | [][^] [] [^] [a-z] \s \S \w \W [\u4E00-\u9FA5] () \d ...原创 2018-06-13 17:00:48 · 1216 阅读 · 0 评论