
NLP
winnertakeall
这个作者很懒,什么都没留下…
展开
-
NLP分词
NLP之汉语分词:可以先加载常用的词典,如果加载词典分词的效果还是不理想,可以选择将词典里面的词进行词频调整。方法如下:import jiebajieba.load_userdict("dic.txt")f = open("dic.txt", "r", encoding="utf8")for i in f: line = i.strip() jieba.sugges...原创 2018-11-18 18:33:43 · 343 阅读 · 0 评论 -
NLP调试常见的错误
import jieba.posseg as psgseg_list = psg.cut(sentence)print(" ".join(seg_list))TypeError: sequence item 0: expected str instance, pair found解决办法:词性分词的时候不能用join方法,要分别要将其词和词性分别取出,才能从生成器里面看到结果i...原创 2018-12-01 14:43:22 · 656 阅读 · 1 评论 -
NLP之常见关键词提取算法运用
1.TextRank# -*- coding=utf8 -*-from jieba import analyse# 引入TextRank关键词抽取接口textrank = analyse.textrank #原始文本text = "央视网消息:全球首个以进口为主题的国家级博览会——中国国际进口博览会,11月5日将在上海举办,来自130多个国家和地区的2800多家企业、国内外超过15万...原创 2018-12-01 15:08:31 · 3550 阅读 · 0 评论 -
NLP之jieba分词
from sklearn.feature_extraction.text import CountVectorizer# 实例化CountVectorizervector = CountVectorizer()# 调用fit_transform输入并转换数据res = vector.fit_transform(["life is is short, i like python", "li...原创 2019-01-14 15:31:28 · 197 阅读 · 0 评论 -
NLP之词频作向量
def cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。") con3 = jieba.cut("如果只用一种方式了解某样事物,你就不会真...原创 2019-01-14 15:48:44 · 1203 阅读 · 0 评论 -
NLP之tfidf作词向量
from sklearn.feature_extraction.text import TfidfVectorizerdef cutword(): con1 = jieba.cut("今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。") con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到...原创 2019-01-14 16:25:59 · 3526 阅读 · 1 评论