新浪微博生成词云

最新推荐文章于 2025-07-30 16:31:01 发布

SCUTJcfeng

最新推荐文章于 2025-07-30 16:31:01 发布

阅读量1w

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： Scrapy

本文链接：https://blog.youkuaiyun.com/SCUTJcfeng/article/details/79719902

本文介绍如何利用Scrapy爬取新浪微博内容，然后使用Wordcloud库生成词云。通过爬取指定UID的大V微博，解析JSON数据，过滤不需要的内容，处理后的文本通过词云展示。文章详细讲解了抓取过程、数据处理和词云生成的步骤，并给出了不同参数设置对词云效果的影响。

新浪微博生成Wordcloud（词云）

1 前言

1.1 目的

本篇主要介绍新浪微博内容生成Wordcloud（词云），我举了一个炒鸡简单的例子。

1.2 工具

Wordcloud 词云（pip install wordcloud安装即可）
jieba 分词（pip install jieba安装即可）

1.3 相关网址

Wordcloud API References：http://amueller.github.io/word_cloud/references.html
微博内容API：https://m.weibo.cn/api/container/getIndex?type=uid&value=2309846073&containerid=1076032309846073&page=1

2 过程

2.1 思路分析

爬取微博内容，这里爬取id为2309846073的大V，目标URL为https://m.weibo.cn/u/2309846073；
查看API，containerid固定为10760+uid，page递增即可，返回json数据；
引入Wordcloud模块，生成词云。

2.2 步骤

本人用Scrapy实现数据抓取，Spider下parse改写如下：

    def parse(self, response):
        json_body = json.loads(response.body)
        data = json_body[

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SCUTJcfeng

关注关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

爬取我的微博并生成词云图

qq_38290604的博客

04-19

1320

import requests from urllib.parse import urlencode from pyquery import PyQuery as pq #from pymongo import MongoClient import jieba import wordcloud base_url = 'https://m.weibo.cn/api/container/get...

【亲测免费】探秘微博词云生成器：weibo_wordcloud

gitblog_00025的博客

03-29

1237

探秘微博词云生成器：weibo_wordcloud 项目简介 weibo_wordcloud 是一个基于 Python 开发的工具，用于自动抓取并生成微博关键词的词云图。通过这个项目，你可以快速地了解某一微博账号的热点话题或者整体讨论趋势。它不仅节省了手动整理和分析的时间，还为数据可视化提供了一种直观且吸引人的方法。技术解析核心功能模块数据抓取 - 使用 Python 的 tweepy 库...

参与评论您还未登录，请先登录后发表或查看评论

无需安装的Python词云生成器详解

最新发布

weixin_36078669的博客

07-30

991

词云生成器是一种将文本数据转换成图像的工具，其中单词的大小、颜色和形状均基于词汇在文本中的出现频率。这种可视化形式让读者快速识别出文本中最重要的关键词汇，广泛应用于内容分析、市场研究、文本挖掘等领域。词云，也称为文字云或标签云，是一种图形化表示词汇频率或重要性的视觉形式。它能直观地展示关键词汇的比重，使得文本内容的主旨一目了然。词云的用途包括但不限于：网站内容的快速概览社交媒体趋势分析市场调研和用户反馈总结教育和科研数据的可视化展示wordcloud。

微博文本挖掘并生成词云图（完整版）

Liziy_y的博客

01-18

1752

通过以上步骤，相信你可以解决在生成词云图过程中遇到的常见问题。希望这些方法对大家有所帮助！如果你在使用词云图生成时还有其他问题，欢迎继续提问，让我们一起解决~

爬取微博好友所发微博制作词云

Co_zy的博客

08-30

1539

打开一个关注者的微博页面,打开开发者工具,选择图中两个地方刷新页面,向下滚动,中途会出现正在加载,直到最后会出现下一页, 这时看开发者工具,这时真正请求的URL才出现然后找到Cookies,复制修改成字典形式复制到如下代码中import requests import json from bs4 import BeautifulSoupurl = '此处填入URL' cookiess = {'Co

程序猿的七夕是这样的

Python之禅的专栏

08-28

568

很早之前写过一篇怎么利用微博数据制作词云图片出来，之前的写得不完整，而且只能使用自己的数据，现在重新整理了一下，任何的微博数据都可以制作出来，放在今天应该比较应景。准备工...

基于python爬取新浪微博爬虫以及生成词云源码.zip

09-08

基于python爬取新浪微博爬虫以及生成词云源码.zip基于python爬取新浪微博爬虫以及生成词云源码.zip基于python爬取新浪微博爬虫以及生成词云源码.zip基于python爬取新浪微博爬虫以及生成词云源码.zip基于python爬取...

基于python爬取新浪微博爬虫以及生成词云源码（高分项目）.zip

05-14

基于python爬取新浪微博爬虫以及生成词云源码（高分项目）.zip个人经导师指导并认可通过的98分大作业设计项目，主要针对计算机相关专业的正在做课程设计、期末大作业的学生和需要项目实战练习的学习者。基于python...

基于python爬取新浪微博爬虫以及生成词云代码+文档说明（高质量代码）

09-05

基于python爬取新浪微博爬虫以及生成词云代码+文档说明（高质量代码），含有代码注释，新手也可看懂，个人手打98分项目，导师非常认可的高分项目，毕业设计、期末大作业和课程设计高分必看，下载下来，简单部署，就...

基于python爬取新浪微博爬虫以及生成词云源码+源代码+文档说明

01-12

基于python爬取新浪微博爬虫以及生成词云源码+源代码+文档说明 - 不懂运行，下载完可以私聊问，可远程教学该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心...

动手做个微博词云

shelgi的博客

07-29

2027

起因累了然后就刷刷微博，看到关注的一个人发的微博挺有意思的，于是想去点个赞，结果提示操作失败！！！原来是我被拉黑了惨兮兮，我想着我也没干啥坏事啊，怎么就把我拉黑了。不行，做点东西去调解一下，于是就开始动手做一个微博的词云，主要是根据他平时的微博内容作为数据，那就先来爬点数据下来。爬微博数据编辑器：我用的就是jupyter notebook，当然其他的也可以。首先，看看微博页面，大概了解一下...

根据关键词生成词云

08-22

wordscloud.jar 根据关键词生成词云

近期微博热搜话题榜词云分析.rar

02-15

爬取微博近期话题热搜，制作词云展示效果图

词云生成Demo

09-06

NLP中词云的实例，python代码实现。

微博热搜爬取生成词云.rar

05-13

微博热搜爬取生成词云（代码可用）

抓取微博热点后绘制词云

何加焉的博客

10-28

1874

生成微博内容词云图

cascara的博客

02-03

3415

根据爬取到的微博内容概要，将其连接为文本，利用既有代码框架生成词云图。

微博词云生成器使用教程

gitblog_00234的博客

08-08

571

微博词云生成器使用教程 1. 项目的目录结构及介绍微博词云生成器（weibo_wordcloud）的目录结构如下： weibo_wordcloud/ ├── 1-weibo-crawler/ │ ├── __init__.py │ ├── crawler.py │ └── ... ├── 2-data-cleaning/ │ ├── __init__.py │ ├── cle...

对微博情绪词进行词云图分析

weixin_71291571的博客

06-18

724

如果有了特征词，怎么通过其来对文本进行向量表示？如果有了向量表示，可否计算不同文本之间的距离（相似性）？1. 读取文件，用split进行分隔，并选出文本，一行视为一个文档。文档中可能会包含一些“噪声”（比如‘[’和‘]’等，可以删除）。7.（附加）如果tuple来表示bigram，请统计所有的bigram的频率，并通过可视化观察高频的bigram。6. 对词性进行分析，观察不同词性的出现频率，并对特定词性的词进行可视化（词云）。4. 引入停用词表（上网搜索）进行停用词过滤，重新观察词频排序的结果。

Python实现新浪微博爬虫与词云生成教程

资源摘要信息:"本资源项目主要包含以下内容：基于python的新浪微博爬虫源码、生成词云的源代码，以及相关文档说明。整个资源项目经过了助教老师审定，确保内容的正确性和可学习性，难度适中，适合于学习和实用。源码...