import jieba as jb
import numpy as np
import pandas as pd
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
shixi = pd.read_table('shixi.txt')
print(shixi)
s = '哈哈哈哈大师赛的小康康'
w = jb.cut(s)
jdlist = list()
for i in range(1000):
w = jb.cut(shixi.content[i])
jdlist.append(TaggedDocument(' '.join(w).split(' '),[i]))
#print(jdlist)
model = Doc2Vec(jdlist,dm=1, dm_concat=1, size=100, window=2, hs=0, min_count=2, workers=8)
print(model.docvecs.most_similar(63)[0][0])
通过genism的库,使用doc2vec看看基于文档的初步分类效果怎么样。
事实证明结果不太行,会把 嵌入式的岗位,匹配到 销售等。
需要进一步对文档分词进行过滤和处理。
先看