
NLP
zhourunan123
这个作者很懒,什么都没留下…
展开
-
结巴分词器
安装jieba库:pip3 install jieba #结巴分词# -*- coding:utf-8 -*-import sysimport osimport jiebasent = '天善智能是一个专注于商业智能BI、数据分析、数据挖掘和大数据技术领域的技术社区 www.hellobi.com 。内容从最初的商业智能 BI 领域也扩充到了数据分析、数据挖掘和大数据相关 的技术领域,包括...原创 2018-05-26 22:58:54 · 3546 阅读 · 0 评论 -
特征选择----TF*IDF
TF*IDFTF 称为词频,表示词在一篇文档中出现的频率=词在该文档中出现的次数 / 该文档中单词的总数---TF越大,表示该词对文档越重要DF称为文档频率,一个词在多少篇文章中出现过IDF 称为逆文档频率=Ln(总文档数/出现该次的文档数)反映了一个词在所有文档中出现的频率,如果一个词在很多文档中出现,那么它的IDF值较低;如果一个词在比较少的文档中出现,那么它的IDF值较高。如...原创 2018-07-24 21:40:18 · 1421 阅读 · 0 评论 -
句子/文档相似度计算
句子/文档相似度计算1.计算两个句子的相似性分词à列出所有词à计算词频à列出词频向量à两个向量的相似程度通过夹角的大小,来判断向量的相似程度。夹角越小,代表越相似(夹角越小,余弦值越大)2.计算两篇文档的相似性使用特征选择(TF-IDF)算法,找出两篇文章的关键词; 每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长...原创 2018-07-24 21:42:25 · 1462 阅读 · 0 评论