python 实现词向量的表示 包括词袋模型/TF-IDF/Word2Vec

以下分别是TF(词袋模型)/TF-IDF/skip-gram(Word2vec)的具体实现代码。

  1. 词袋模型
from sklearn.feature_extraction.text import CountVectorizer
#语料库
train_x= ['build fails due publication-tests.xml build target','due to sb']
test_x =['build one to ']
#将文本中的词语转换为词频矩阵  选择前256个词 相当于词向量的维度是256维的
cv_ = CountVectorizer(max_features=256)
#计算个词语出现的次数  此类方法一般先fit拟合,再transform转换
X = cv_.fit_transform(train_x)
#输出语料库
print('corpus',train_x)
#输出词典
print('feature_names',cv_.get_feature_names())
#输出词汇
print('vocabulary_',cv_.vocabulary_)
#输出模型参数
print('params',cv_.get_params(deep=True))
#输出词频
print(X)
#查看词频结果
print(X.toarray()
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值