Python实现Word2vec学习笔记
参考:
中文word2vec的python实现
python初步实现word2vec
中英文维基百科语料上的Word2Vec实验
1 文件目录结构:
[.../vord2vec]$ls
data model_train.py word2vec_test.py word_cut.py
[.../vord2vec]$ ls ./data/*
./data/倚天屠龙记.txt
2 word_cut.py文件内容:
#该文件实现了加载原始文件,进行切词服务
# coding: utf-8
import io
import sys
import jieba
file_name = './data/倚天屠龙记.txt'
cut_file = './data/倚天屠龙记_cut.txt'
reload(sys)
sys.setdefaultencoding('utf8')
# 此函数作用是对初始语料进行分词处理后,作为训练模型的语料
def cut_txt(old_file, cut_file):
print 'cut_txt begin.'
try:
# read file context
fi = io.open(old_file, 'r', encoding='utf-8')
text = fi.read() # 获取文本内容
# cut word
new_text = jieba.cut(text, cut_all=False) # 精确模式
str_out = ' '.join(new_text).replace(',', '').replace('。', '').replace('?', '').replace(

本文是关于使用Python的gensim库实现Word2vec的详细学习笔记,涵盖了从语料预处理到模型训练及测试的全过程,包括中英文维基百科数据集的实验。附带GitHub代码资源。
最低0.47元/天 解锁文章
740





