NLP
TURING.DT
科技改变世界,技术改变人生。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用scikit-learn tfidf计算词语权重
TF-IDF概述 TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。 前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一节中,我们讲到几乎所有文本原创 2017-09-13 10:38:11 · 24192 阅读 · 17 评论 -
使用Gensim模块训练词向量
如果在以词为基本单元输入的自然语言处理任务中,都避免不了使用词的表示,词的表示有很多种,这里主要介绍的就是词向量,word2vec是目前比较通用的训练词向量的工具,使用Gensim模块,可以使词向量的训练变的简单,那么我们知道对于word2vec来说,不论的Skip-Gram models还是CBOW models,他们的输入以及输出都是以单词为基本单位的,只是他们对应的输入以及输出不一样: CBOW models:输入为多个上下文单词,输出目标为一个单词; Skip-Gram models:输入为单个词原创 2020-08-20 19:34:34 · 1927 阅读 · 0 评论
分享