无须代码爬取豆瓣热门电影评论制作词云

最新推荐文章于 2024-03-09 22:21:09 发布

原创最新推荐文章于 2024-03-09 22:21:09 发布 · 954 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #词云

爬虫专栏收录该内容

1 篇文章

订阅专栏

博客介绍了制作词云用到的工具，包括Web Scraper、pycharm+anaconda、github jieba分词、wordart网站等。详细说明了抓取数据时Web Scraper插件的安装与开启，以及jieba分词的下载安装，还提到运行后生成词频导入、字体设置等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用到的工具有

Web Scraper
pycharm+anaconda
github jieba分词
wordart 网站
1 抓取数据
web scraper是一个谷歌浏览器插件，如果可以科学上网的话直接去下载。不能科学上网的话就只能在网上找了。
安装好插件后开启 web Scaper
在谷歌浏览器种按下F12 打开开发者工具
详细操作看我录制的视频，比图文更好一些。把链接中间的空格去掉。
链接：https: // pan. baidu. com/s/113z_bRVbjqX8eyr6rfG5vQ
提取码：9h3l

在这里插入图片描述
在github上下载jieba分词
windows系统的话打开cmd 进入python.exe所在目录.输入python setup.py install
打开pycharm设置好annaconda解释器

# -*- coding: UTF-8 -*-
import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs

# 设置pd的显示长度
pd.set_option('max_colwidth', 500)

# 载入数据
rows = pd.read_csv('D:\\seven_samurai.csv', header=0, encoding='utf-8', dtype=str)

segments = []
for index, row in rows.iterrows():
    content = row[1]
    # TextRank 关键词抽取，只获取固定词性
    words = jieba.analyse.textrank(content, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
    splitedStr = ''
    for word in words:
        # 记录全局分词
        segments.append({'word': word, 'count': 1})
        splitedStr += word + ' '
dfSg = pd.DataFrame(segments)

# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()
# 导出csv
dfWord.to_csv('D:\\keywords.csv', encoding='utf-8')

运行完毕后会生成
在这里插入图片描述

将词频导入，记住是分号隔开的，可以用notepad++打开后替换
字体必须是中文字体，不然词云是乱码的。