接上一节。 注:本文的所有路径都才用的是相对路径,读者请自行换成自己的绝对路径,保证文件可读取。
要进行文本挖掘,需要引入gensim这个工具包,需要用到其中的语料库,模型,相似度等包。
from gensim import corpora, models, similarities # corpora语料库
import jieba
from collections import defaultdict
import urllib.request
1. 读取文档
上一节讲过两种读取文档的方法,第二种可以保证编码正确。
对于python3,如果有编码问题,首先在文件头加 # coding:utf-8
#d1=open(doc1).read()
#d2=open(doc2).read()
d1 = urllib.request.urlopen("http://127.0.0.1/gcd.html").read().decode("utf-8", "ignore")
d2 = urllib.request.urlopen("http://127.0.0.1/ljm.html").read().decode("utf-8", "ignore")
2. 对要计算的多篇文档进行分词
data1 = jieba.cut(d1)
data2 = jieba.cut(d2)
3. 对要计算的多本小说数据分别整理成指定格式,方便后续进行计算
data11 = ""
for item in data1:
data11 += item+" "
data21 = ""
for

本文是python数据分析与挖掘学习笔记的第三部分,聚焦于小说文本挖掘。使用gensim工具包进行语料库处理,建立词典,并讨论了协同过滤与基于内容推荐的区别。同时提供了知乎相关问题链接以深入理解这两种方法的差异。
最低0.47元/天 解锁文章
1442

被折叠的 条评论
为什么被折叠?



