最近,电视剧《庆余年》正在热播,作为一个不喜欢学习但又闲着没事干的人,我肯定是要入坑的,实不相瞒,本人也是花了两天的时间才把这部电视剧给肝完了。
咦,好像跑题了~~。好了,不说废话了,进入正题。今天要做的是用Word2Vec来计算《庆余年》中人物的相似度。
准备工作
- 安装jieba和gensim(这个应该挺简单的)
- 下载好小说版的庆余年,并将编码改为utf-8
读入文件
jieba分词并且过滤掉标点符号
训练模型
利用模型来预测结果
完整代码
# !/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time: 2020/1/2 11:19
# @Author: Martin
# @File: Celebrate_The_Year.py
# @Software:PyCharm
import jieba
from gensim.models import word2vec
from gensim.models import Word2Vec
# 读取文件
with open("../res/庆余年.txt", 'r', encoding='utf-8') as f1:
text = f1.read()
# jieba分词
jieba_text = jieba.cut(text,