想用tf-dif来做关键词提取,但是文本是大量的新闻文本,发现网上又用sklearn来计算,但是都是小句子,文本太大,矩阵放不下,一直很奇怪是怎么计算逆文档频率的,后来找到了这篇文章,发现确实是要建立语料库的,感谢作者!
https://wenku.baidu.com/view/e5fda8ccf111f18582d05a45.html
没有问过作者,不好意思,作者要是看到了不同意转载的话会删掉的
想用tf-dif来做关键词提取,但是文本是大量的新闻文本,发现网上又用sklearn来计算,但是都是小句子,文本太大,矩阵放不下,一直很奇怪是怎么计算逆文档频率的,后来找到了这篇文章,发现确实是要建立语料库的,感谢作者!
https://wenku.baidu.com/view/e5fda8ccf111f18582d05a45.html
没有问过作者,不好意思,作者要是看到了不同意转载的话会删掉的