无须代码爬取豆瓣热门电影评论制作词云

博客介绍了制作词云用到的工具,包括Web Scraper、pycharm+anaconda、github jieba分词、wordart网站等。详细说明了抓取数据时Web Scraper插件的安装与开启,以及jieba分词的下载安装,还提到运行后生成词频导入、字体设置等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用到的工具有

  • Web Scraper
  • pycharm+anaconda
  • github jieba分词
  • wordart 网站
    1 抓取数据
    web scraper是一个谷歌浏览器插件,如果可以科学上网的话直接去下载。不能科学上网的话就只能在网上找了。
    安装好插件后开启 web Scaper
    在谷歌浏览器种按下F12 打开开发者工具安装成功后可以看到上图所示内容
    详细操作看我录制的视频,比图文更好一些。把链接中间的空格去掉。
    链接:https: // pan. baidu. com/s/113z_bRVbjqX8eyr6rfG5vQ
    提取码:9h3l

在这里插入图片描述
在github上下载jieba分词
windows系统的话打开cmd 进入python.exe所在目录.输入python setup.py install
打开pycharm设置好annaconda解释器

# -*- coding: UTF-8 -*-
import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs

# 设置pd的显示长度
pd.set_option('max_colwidth', 500)

# 载入数据
rows = pd.read_csv('D:\\seven_samurai.csv', header=0, encoding='utf-8', dtype=str)

segments = []
for index, row in rows.iterrows():
    content = row[1]
    # TextRank 关键词抽取,只获取固定词性
    words = jieba.analyse.textrank(content, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
    splitedStr = ''
    for word in words:
        # 记录全局分词
        segments.append({'word': word, 'count': 1})
        splitedStr += word + ' '
dfSg = pd.DataFrame(segments)

# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()
# 导出csv
dfWord.to_csv('D:\\keywords.csv', encoding='utf-8')

运行完毕后会生成
在这里插入图片描述
在这里插入图片描述
将词频导入,记住是分号隔开的,可以用notepad++打开后替换
字体必须是中文字体,不然词云是乱码的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值