机器学习-nlp-sklearn进行关键词提取(基于tfidf)
背景
tfidf相对词频可以很好的反应出文本中的关键词。本文将使用sklearn进行关键词提取。
实战
结巴分词
使用pandas读取csv文件内容
遍历titile内容进行分词
加载停用词
遍历进行停词
使用sklearn的TfidfVectorizer对文本进行向量化
tfidf.toarray()转换成为矩阵,然后进行行排序,取最后的n个索引(argsort是拿到索引值)
通...
原创
2020-01-02 21:40:12 ·
5327 阅读 ·
0 评论