python 实现词向量的表示包括词袋模型/TF-IDF/Word2Vec

拙小拙

于 2020-12-13 20:29:06 发布

阅读量2.6k

点赞数

分类专栏： # 其余

本文链接：https://blog.youkuaiyun.com/qq_35182128/article/details/110942685

版权

以下分别是TF（词袋模型）/TF-IDF/skip-gram(Word2vec)的具体实现代码。

词袋模型

from sklearn.feature_extraction.text import CountVectorizer
#语料库
train_x= ['build fails due publication-tests.xml build target','due to sb']
test_x =['build one to ']
#将文本中的词语转换为词频矩阵  选择前256个词 相当于词向量的维度是256维的
cv_ = CountVectorizer(max_features=256)
#计算个词语出现的次数  此类方法一般先fit拟合，再transform转换
X = cv_.fit_transform(train_x)
#输出语料库
print('corpus',train_x)
#输出词典
print('feature_names',cv_.get_feature_names())
#输出词汇
print('vocabulary_',cv_.vocabulary_)
#输出模型参数
print('params',cv_.get_params(deep=True))
#输出词频
print(X)
#查看词频结果
print(X.toarray()