使用python爬取豆瓣评论，生成词云图

Python爬取豆瓣评论生成词云图教程

最新推荐文章于 2023-12-21 10:30:35 发布

原创

最新推荐文章于 2023-12-21 10:30:35 发布 · 2.1k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #xpath #数据分析 #网络协议

本文介绍了如何使用Python的requests和parsel库爬取豆瓣评论，结合jieba进行分词，再利用wordcloud库生成词云图。详细步骤包括获取评论内容、数据解析、写入文本及展示词云效果。

开发工具

pycharm

第三方放库

requests模块

pip install reqeusts 网络请求库

parsel模块

pip install parsel 数据解析库

词云模块

pip install wordcloud 词云库

pip install jieba 分词库

代码分析

1、获取评论页的内容

url = 'https://movie.douban.com/subject/34841067/comments?status=P'
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'}
rest = requests.get(url=url, headers=header)   #  携带请求头

2、数据解析

result = parsel.Selector(rest.text) 将html网页数据进行解析
result_s = result.xpath("//span [@class = 'short']/text()") 使用xpath进行数据匹配

3、将内容写入文本

f = open('你好，李焕英.txt', 'a', encoding='utf-8')  # 打开文件
for item in result_s:
    f

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

python 扫地僧

关注关注

3
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

爬取豆瓣短评制作词云

weixin_57095089的博客

06-18

761

首先是引库 import requests from bs4 import BeautifulSoup

python豆瓣爬取评论并生成词云

weixin_49006942的博客

03-18

1170

需要准备的库： request----------------爬虫包 re-----------------------正则包 wordcloud------------词云 matplotlib.pyplot----处理生成图片 jieba-------------------处理词云中文乱码话不多说直接上成品图源码在此（原理简单，在此不做过多赘述）： import requests import re from wordcloud import WordCloud import matplotli

1 条评论您还未登录，请先登录后发表或查看评论

python3爬取豆瓣电影影评，并绘制词云图

妖言的博客

07-23

3820

首先我们选择一部电影，我们选择一个最近较火的哪吒来进行简单操作。首先找到对应网址，https://movie.douban.com/subject/26794435/comments?start=0&limit=20&sort=new_score&status=P 其中，对应网址的网址内容是以0为起点，限制20条评论，因此一页是显示20条评论，我们只要循环传给代码解析即...

爬取豆瓣影评并生成词云

白羊是小白

03-31

5539

1.利用爬虫爬取影评信息 2.将获取的内容进行jieba分词 3.将上一步结果利用wordcloud生成影评词云

python爬虫爬取豆瓣图书热评并生成图云

Super萌的博客

11-27

2720

共4个py文件，按照顺序运行即可会指出图云，效果图在最后，参考b占up主“龙王山小青椒”【Python爬虫+本科毕业论文速成】豆瓣评论-我是余欢水-【数据抓取-情感分析-评分统计-词云制作】的视频，并进行了完善 douban_book_comment.py # coding:utf-8 # time:2021年11月27日 import requests import pandas as pd import re import time import csv from bs4 import Beautifu

python爬取豆瓣影评生成词云的课程设计报告_Python爬取豆瓣影评，生成词云图，只要简单一步即可实现。...

weixin_39622150的博客

12-17

1933

最近看了一部电影《绣春刀》，里面的剧情感觉还不错，本文爬取的是绣春刀电影的豆瓣影评，1000个用户的短评，共5W多字。用jieba分词，对词语的出现频率进行统计，再通过wordcloud生成词云图。今天和小伙伴们一起梳理下具体实现的流程，具体源代码已经上传到NLP小白公众号中，发送“词云图”，即可获取源代码。先上图为敬，看看豆瓣的网友评论侧重哪个方面。PS:词语出现的频率越多，字体越大具体流程如...

Python爬虫示例爬取豆瓣影评生成词云

不叫浮云的博客

01-27

5726

一个简单的Python爬虫示例，本文讲解该怎么爬取网页信息，分析页面结构，将信息存入MongoDB（如果没有MongoDB也可以存txt里，并不影响整体程序运行），对影评使用jieba分词来构成词云（解决中文生成词云是空方格）。使用到的包 import requests #连接失败的异常 from requests.exceptions import ConnectionError #Mongo...

使用Python抓取豆瓣电影评论并分析词云生成词云图

qq_74311623的博客

12-21

4601

本文将介绍如何使用Python抓取豆瓣电影的评论，并通过词云分析来展示评论中的高频词汇，使用Python的词云生成库，可以将文本数据转换为词云图。通过实践，可以掌握词云生成的基本方法和技巧，并了解如何将文本数据以更加直观的方式呈现出来。同时，本文所介绍的方法也可以应用于其他网络平台的评论分析，为相关领域的研究提供一定的借鉴和帮助。将list_tags转换为一个新的DataFrame，名为data_tags，包含两列，一列是词语，一列是词性。设置词云图的标题为"海王的评论"，字体大小为23。

python爬取豆瓣影评生成词云的课程设计报告_python 爬取豆瓣电影短评并wordcloud生成词云图...

weixin_39968436的博客

12-17

1592

最近学到数据可视化到了词云图，正好学到爬虫，各种爬网站【实验名称】爬取豆瓣电影《千与千寻》的评论并生成词云1. 利用爬虫获得电影评论的文本数据2. 处理文本数据生成词云图第一步，准备数据首先获取cookies，使用爬虫强大的firefox浏览器将cookies数据复制到cookies.txt文件当中备用，2.第二步，编写爬虫代码#coding = utf-8import requestsimpo...

Python 爬取豆瓣影片短评生成词云统计

a736755244的博客

12-09

5771

Python 豆瓣影片短评词云统计

爬取豆瓣影评、清洗、jieba分词、做词云图

06-23

爬取豆瓣影评、清洗、jieba分词、做词云图 本程序主要分为3个过程。 1、抓取网页数据使用Python爬虫技术获取豆瓣电影中最新上映电影的网页，其网址如下： https://movie.douban.com/cinema/nowplaying/qingdao/ 正在上映的电影每个电影的ID和名称通过其HTML解析出每部电影的ID号和电影名，获取某ID号就可以得到该部电影的影评网址，形势如下： https://movie.douban.com/subject/26900949/comments https://movie.douban.com/subject/26871938/comments 其中，26900949、26871938就是电影《天使陷落》、《灭绝》的ID号，这样仅仅获取了20哥影评，可以指定开始号start来获取更多影评，例如： https://movie.douban.com/subject/26900949/comments?start=40&limit=20 这意味着获取从第40条开始得20个影评。 2、清理数据通常将某部影评信息存入eachCommentList列表中。为便于数据清理和词频统计，把eachCommentList列表形成字符串comments，将comments字符串中的“也”“太”“ 的”等虚词（停用词）清理掉后进行词频统计。 3、用词云进行展示最后使用词云包对影评信息进行词云展示。

Python3网络爬虫：requests+mongodb+wordcloud 爬取豆瓣影评并生成词云

Xiao布_unknown的博客

11-19

2937

Python版本： python3.+ 运行环境： Mac OS IDE： pycharm一前言二豆瓣网影评爬取网页分析代码编写三数据库实装四中文分词五词云生成六代码合并七小结一前言之前捣鼓了几日wordcloud词云，觉得很有意思，能自定义背景图、设置各式各样的字体、还能设置词的颜色。生成词云的时候也很有成就感。（233333）但是哪来的数据源呢？于是就

用Python爬取豆瓣首页所有电影名称、每部电影影评及生成词云

退休大叔学Pytnon

12-24

2833

1.爬取环境： window 7 Chrome 浏览器注册豆瓣、注册超级鹰 2.安装第三方库：安装第三方库：主程序用到的库有 import sys, time import pytesseract from selenium import webdriver from PIL import Image, ImageEnhance from chaojiying import Chaoji...

Python爬取豆瓣的影评并生产词云

Shiliang1995

12-03

980

爬取评论的代码如下所示 from urllib import request from bs4 import BeautifulSoup as bs import os i= 1 while(i<6): i+=1 url = 'https://book.douban.com/subject/26904658/comments/hot?p='+str(i) con...

python爬取豆瓣评论，并制作成词云

qq_46500711的博客

01-03

3258

python爬取豆瓣评论，并将其制作成词云

四十行Python代码，带你爬取热门音乐评论，制作评论词云图！

chinaherolts2008的博客

08-09

342

好了，我们先介绍下今天要用的软件和模块~ 软件 python 3.6 pycharm 模块 re selenium （安装方法）python模块: pip install selneium jieba wordcloud imageio 大概流程 1、selenium简单使用 2、中文分词库的使用 3、词云图的制作先看看爬虫部分导入浏览器的功能 from selenium import webdriver 正则表达式模块, 内置 import re 时间模块,

19 词云实战——爬取豆瓣影评生成词云

不管风雨有多少丶的博客

04-03

1303

词云实战20.2 程序设计的思路20.3 关键技术· 使用WordCloud20.4 源代码1、抓取网页数据2、数据清洗3、用词云进行显示4、完整程序代码（取前二十页评论） #!/usr/bin/env python # coding: utf-8 20.2 程序设计的思路 # In[ ]: ·抓取网页数据 https://movie.douban.com/cinema/nowpla...

爬取豆瓣《小丑》短评做词云图

qq_40082282的博客

12-11

581

一、抓取小丑的豆瓣短评网址：https://movie.douban.com/subject/27119724/reviews?start=20 每一页20个评论，我总共抓取了3060条评论：分别抓取了评论用户的名称、短评的内容，点赞数目以及用户链接抓取内容保存为文本格式，用pandas进行读取后如下所示： import pandas as pd table=pd.read_table('...

惊！惊！惊！Σ(っ °Д °；)っ爬取豆瓣影评保存到csv文件中，并且制作成云词图

Keep Doing this的博客

06-19

2066

一、导入模块 #request #bs4 import csv import requests#获取response对象 from bs4 import BeautifulSoup#获取解析对象二、

python爬虫爬取豆瓣最新评论并生成词云图代码