20180923 word2vec相似度改进（不浪费句子）

最新推荐文章于 2024-05-06 12:04:03 发布

原创

最新推荐文章于 2024-05-06 12:04:03 发布 · 1.8k 阅读

1 ·

CC 4.0 BY-SA版权

本文探讨了如何在word2vec中避免浪费句子，通过不使用无词向量的词语，提高模型效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

没有词向量就丢掉，不放进词集合里，不浪费句子，的改进。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from __future__ import division  #除法
import sys
import codecs   #可以以特定编码打开文件
import jieba
import jieba.posseg as pseg
reload(sys)               #zzh说这种方法不好，不要再用了！！！  可是真的很好用啊 QAQ
sys.setdefaultencoding('utf-8')
import gensim

# model = gensim.models.Word2Vec.load("22620491.model")
model = gensim.models.KeyedVectors.load_word2vec_format('news_12g_baidubaike_20g_novel_90g_embedding_64.bin', binary=True)
word_vec = model.wv
del model     #把模型给word_vec，所以Model删掉。

print word_vec[u'难过']

f = codecs.open("xlj_fenci.txt",'r','utf-8')    #codecs包指定TXT打开方式
lines = f.readlines()
#doc = open('fenlei.txt', 'w')


right,wrong,total=0,0,0
cntl,cnta,cntn,cntj,cntw=0,0,0,0,0   #标注时每一类的数量
resl,resa,resn,resj,resw=0,0,0,0,0  #分类正确每一类结果数量
for line in lines: #每一行弹幕

    if lines.index(line) % 500 ==0:   #显示跑到多少条数据
        print lines.index(line)
    if line.split("  ")[0].split