python数据分析与挖掘学习笔记(3)_小说文本数据挖掘part2

本文是python数据分析与挖掘学习笔记的第三部分,聚焦于小说文本挖掘。使用gensim工具包进行语料库处理,建立词典,并讨论了协同过滤与基于内容推荐的区别。同时提供了知乎相关问题链接以深入理解这两种方法的差异。

接上一节。 注:本文的所有路径都才用的是相对路径,读者请自行换成自己的绝对路径,保证文件可读取。

要进行文本挖掘,需要引入gensim这个工具包,需要用到其中的语料库,模型,相似度等包。

from gensim import corpora, models, similarities   # corpora语料库
import jieba
from collections import defaultdict
import urllib.request

1. 读取文档

上一节讲过两种读取文档的方法,第二种可以保证编码正确。

对于python3,如果有编码问题,首先在文件头加 # coding:utf-8

#d1=open(doc1).read()
#d2=open(doc2).read()
d1 = urllib.request.urlopen("http://127.0.0.1/gcd.html").read().decode("utf-8", "ignore")
d2 = urllib.request.urlopen("http://127.0.0.1/ljm.html").read().decode("utf-8", "ignore")

2. 对要计算的多篇文档进行分词

data1 = jieba.cut(d1)
data2 = jieba.cut(d2)


3. 对要计算的多本小说数据分别整理成指定格式,方便后续进行计算

data11 = ""
for item in data1:
    data11 += item+" "
data21 = ""
for
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值