python数据分析与挖掘学习笔记（3）_小说文本数据挖掘part2

最新推荐文章于 2024-01-24 01:53:54 发布

原创

最新推荐文章于 2024-01-24 01:53:54 发布 · 2.6k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析与挖掘

本文是python数据分析与挖掘学习笔记的第三部分，聚焦于小说文本挖掘。使用gensim工具包进行语料库处理，建立词典，并讨论了协同过滤与基于内容推荐的区别。同时提供了知乎相关问题链接以深入理解这两种方法的差异。

接上一节。注：本文的所有路径都才用的是相对路径，读者请自行换成自己的绝对路径，保证文件可读取。

要进行文本挖掘，需要引入gensim这个工具包，需要用到其中的语料库，模型，相似度等包。

from gensim import corpora, models, similarities   # corpora语料库
import jieba
from collections import defaultdict
import urllib.request

1. 读取文档

上一节讲过两种读取文档的方法，第二种可以保证编码正确。

对于python3，如果有编码问题，首先在文件头加 # coding:utf-8

#d1=open(doc1).read()
#d2=open(doc2).read()
d1 = urllib.request.urlopen("http://127.0.0.1/gcd.html").read().decode("utf-8", "ignore")
d2 = urllib.request.urlopen("http://127.0.0.1/ljm.html").read().decode("utf-8", "ignore")

2. 对要计算的多篇文档进行分词

data1 = jieba.cut(d1)
data2 = jieba.cut(d2)

3. 对要计算的多本小说数据分别整理成指定格式，方便后续进行计算

data11 = ""
for item in data1:
    data11 += item+" "
data21 = ""
for

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小胖子小胖子

关注关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

文本挖掘（9）：文本挖掘导论

kkchenjj的博客

07-19

1446

文本挖掘（Text Mining），也称为文本数据挖掘或文本分析，是一种从大量文本数据中提取有价值信息的过程。它结合了自然语言处理（NLP）、机器学习和统计学等领域的技术，旨在理解和解析文本内容，揭示隐藏在文本中的模式和知识。

Python学习笔记，爬取笔趣阁小说

zihong522的博客

07-20

409

学习了基础的语法，然后网上看到有人分享利用python爬取小说，自己拷贝了代码尝试了一下。 1. 环境准备安装 BeautifulSoup4 和 lxml & C:/Python39/python.exe -m pip install --user BeautifulSoup4 & C:/Python39/python.exe -m pip install --user lxml 2. 重命名了下载后的文件名便于排序也防止有非法的字符出现无法创建文件，加了1秒的间隔。小编推荐一个学pyt

1 条评论您还未登录，请先登录后发表或查看评论

python文本挖掘案例_Python代写小说文本挖掘正则表达式分析案例

weixin_39649478的博客

11-21

328

数据集约瑟夫海勒捕捉22是我最喜欢的小说。我最近读完了 ,并喜欢整本书中语言的创造性使用和荒谬人物的互动。对于我的可视化类，选择文本作为我的最终项目“数据集”是一个简单的选择。该文有大约175,000个单词，分为42章。我在网上找到了这本书的原始文本版本并开始工作。我使用正则表达式和简单字符串匹配的组合在Python中解析文本。我shiny在R中以交互方式可视化这些数据集。地中海旅行这种可视化...

数据挖掘 python文本分类

01-19

数据挖掘，pyton3.6文本分类

python数据分析与挖掘学习笔记（3）_小说文本数据挖掘part1

小胖子的博客

01-10

5725

这一节主要是对小说文本数据的挖掘项目。文本挖掘的一个重要的应用是进行站点的个性化推荐。将用户感兴趣的信息推送给对应的用户，可以更好地发挥该信息的价值。比如，我们常常会在浏览网页的时候看到相关的广告是我们感兴趣的，新闻推送的是我们感兴趣的文章，阅读小说推荐的是我们想看的小说，逛淘宝的时候也会发现有一部分猜你喜欢，推荐的是你多半感兴趣的商品，等等。这都是文本挖掘以及相关信息挖掘的技术实

你用 Python 做过什么有趣的数据挖掘项目

u013593585的专栏

06-19

4005

编者按：本文经授权转载自知乎回答，作者何明科系一面网络技术有限公司创始人。作者现身说法，用自己的创业历程举例说明：有钱很重要，有趣更重要。以下是正文：enjoy：第零步：原点，大数据与价值大概一年多以前，和几个小伙伴均认同一个趋势：觉得通过技术手段获取网上越来越丰富的数据，并基于这些数据做分析及可视化，必能产生有价值的结果，帮助大家改善生活。（大数据被叫烂了，所以用低调的方式来解释

python 小说数据挖掘_python 数据挖掘篇四小说数据挖掘实例

weixin_39701834的博客

03-01

468

python 数据挖掘篇四小说数据挖掘实例Python 安装 python 学习一 python 语法,及变量类型 python 学习二爬一个图片网站上 python 学习二 02 爬一个图片网站,获得主链接网址,并保存 python 学习二 03 爬一个图片网站 - 获得所有分页网址 python 学习二 04 爬一个图片网站 - 解析文件,获得所有图片链接 python 学习二...

利用Python进行数据分析的学习笔记——chap8

hlinging的博客

03-06

3358

绘图和可视化 matplotlib的示例库和文档是成为绘图高手的最佳学习资源。 import numpy as np import pandas as pd from pandas import DataFrame,Series #画图所需 %pylab inline %matplotlib inline import matplotlib.pyplot as plt Populating the interactive namespace from numpy and matplotlib plot(

python 小说数据挖掘_Python数据挖掘－文本挖掘

weixin_39679370的博客

11-24

294

文本挖掘概要搞什么的?从大量文本数据中，抽取出有价值的知识，并且利用这些知识更好的组织信息的过程。目的是什么?把文本信息转化为人们可利用的知识。举例来说，下面的图表利用文本挖掘技术对库克iphoneX 发布会的内容进行分析，得出此次发布会报告中的几个常青词汇、词频的趋势变化情况。(一)语料库(Corpus)在python中，如何根据以往的文档文件搭建一个语料库?1.什么是语料库语料库是我们要分析的...

Python入门实战：Python文本挖掘基础

AGI×大数据，开启智能时代的认知跃迁；解码AGI，赋能数据驱动的智能革命。

11-30

1519

1.背景介绍 Python是一种强大的编程语言，它具有简洁的语法和易于学习。在数据挖掘领域，Python是一个非常重要的工具。文本挖掘是数据挖掘的一个重要分支，它涉及到对大量文本数据的分析和处理，以发现隐藏的模式和信息。在本文中，我们将讨论Python文本挖掘的基础知识，包括核心概念、算法原理、具体操作步骤、数学模型公式、代码实例以及未来发展趋势。

python 小说数据挖掘_python 数据挖掘篇三 gensim 使用

weixin_39830917的博客

11-23

227

第三章 Genism3.1字符串列表到分词向量的转换将每一个文档进行分词，形成2维列表形式，列表的每一项是子列表，子列表存储的文档的分词到此为止，我们已经将字符串列表，转换为了分词向量的形式。但是，这样计算机还是不好处理，而且，也不好进行数学运算，如果能将他们表示成数学的方式，岂不是非常美妙的一件事。3.2分词向量转换为数学空间整形向量（语料）怎么转换成数学表达形式呢？其实这个肯定都用过，你没用过...

Python的文本挖掘和文本分类

热门推荐

Blog of Benley

02-21

3万+

一、NLTK介绍及安装1.1 NLTK安装NLTK的全称是natural language toolkit，是一套基于python的自然语言处理工具集。nltk的安装十分便捷，只需要pip就可以。相对Python2版本来说，NLTK更支持Python3版本。pip install nltk在nltk中集成了语料与模型等的包管理器，通过在python解释器中执行>>> import...

gensim

满腹的小不甘

09-08

757

核心概念 Document: some text. Corpus: a collection of documents. Vector: a mathematically convenient representation of a document. Model: an algorithm for transforming vectors from one representation to another. Document 在Gensim中，Document是

瞎聊机器学习——TF-IDF算法（原理及代码实现）

二哥为啥不像程序员？

05-16

8337

TF-IDF的概念 TF-IDF是Term Frequency - Inverse Document Frequency的缩写，即“词频-逆文本频率”。它由两部分组成，TF和IDF。 TF策略我在之前的高频词提取文章中进行过使用，TF用来表示词频，也就是某个词在文章中出现的总次数，也就是： TF=某个词在文章中出现的总次数但是考虑到每篇文章的长短是不同的，所以我们可以把上述内容进行一个...

自然语言处理之gensim入门和流式实现

永远飞翔的鸟

03-03

3265

Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，支持流式训练，并提供了诸如相似度计算，信息检索等一些常用任务的API接口。 gensim中基本概念语料（Corpus）：一组原始文本的集合，用于无监督地训练文本主题的隐层结构。语料中不需要...

（词/位置）向量训练实战——Word2vector、Glove、Doc2vector、position_embedding

lucky_chaichai的博客

01-21

4242

1、基于gensim（版本：3.8.3）的Word2vector 进行token2id，方便后续利用word2vector进行embedding import pprint import gensim from gensim.models.word2vec import Word2Vec from gensim.corpora.dictionary import Dictionary sentense='按我的理解，优化过程的第一步其实就是求梯度。这个过程就是根据输入的损失函数，提取其中的变量，进行梯度下降

dictionary.id2token为空？

Caiqiudan的博客

12-19

939

转： Gensim保存的字典没有id2token 不需要用dictionary.id2token[1613]，可以直接使用dictionary[1613]

《python数据分析与挖掘实战》读书笔记代码精解

1. **《python数据分析与挖掘实战》**：这是一部以Python语言为基础，专门讲解如何使用Python进行数据分析和数据挖掘的实战类书籍。这类书籍通常会涉及以下几个方面： - **Python基础**：介绍Python语言的基础知识...