最近,电视剧《庆余年》正在热播,作为一个不喜欢学习但又闲着没事干的人,我肯定是要入坑的,实不相瞒,本人也是花了两天的时间才把这部电视剧给肝完了。

咦,好像跑题了~~。好了,不说废话了,进入正题。今天要做的是用Word2Vec来计算《庆余年》中人物的相似度。
准备工作
- 安装jieba和gensim(这个应该挺简单的)
- 下载好小说版的庆余年,并将编码改为utf-8

读入文件

jieba分词并且过滤掉标点符号

训练模型

利用模型来预测结果

完整代码
# !/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time: 2020/1/2 11:19
# @Author: Martin
# @File: Celebrate_The_Year.py
# @Software:PyCharm
import jieba
from gensim.models import word2vec
from gensim.models import Word2Vec
# 读取文件
with open("../res/庆余年.txt", 'r', encoding='utf-8') as f1:
text = f1.read()
# jieba分词
jieba_text = jieba.cut(text, cut_all=False)
# 过滤标点符号
string = ' '

本文使用Word2Vec通过Python的jieba和gensim库,计算《庆余年》中人物范闲和林婉儿的相似度,详细介绍了从数据准备到模型训练和结果展示的全过程。最终结果显示,范闲和林婉儿的相似度为0.73956585,同时展示了与两人最相关的其他角色和词汇。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



