requests案例——爬取微博的一级和二级评论

最新推荐文章于 2025-03-29 17:51:11 发布

人生の三重奏

最新推荐文章于 2025-03-29 17:51:11 发布

阅读量1.6k

点赞数 30

文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/qq_53256193/article/details/142714260

版权

案例需求：

1.爬取该网页下的一级评论和二级评论

https://m.weibo.cn/detail/4813628149072458

分析：

1.找到一级评论请求地址

url请求地址：

二级url地址

分析翻页参数——可知翻页是从第二页开始的

从而得到：

移动端链接:https://m.weibo.cn/detail/4813628149072458
一级评论接口:https://m.weibo.cn/comments/hotflow?id=4813628149072458&mid=4813628149072458&max_id_type=0
    --参数:
        id: 4813628149072458
        mid: 4813628149072458
        max_id_type: 0
        max_id: 13883307764046392 #翻页参数---从第二页开始 (在上一页一级评论接口可以找到)

二级评论接口:https://m.weibo.cn/comments/hotFlowChild?cid=4813628329693567&max_id=0&max_id_type=0
    ---参数:
            cid: 4813628329693567
            max_id: 0 #二级翻页参数(在上一页评论接口中可以找到)
            max_id_type: 0

获取一级评论

import requests
from jsonpath import jsonpath
import re


class Weibo():
    def __init__(self):
        self.one_url = 'https://m

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

人生の三重奏

关注关注

30
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

[Pyhon疫情大数据分析] 四.微博话题抓取及新冠肺炎疫情文本挖掘和情感分析

杨秀璋的专栏

03-21

7万+

Python大数据分析系列博客，包括网络爬虫、可视化分析、GIS地图显示、情感分析、舆情分析、主题挖掘、威胁情报溯源、知识图谱、预测预警及AI和NLP应用等。前文分享了疫情相关新闻数据爬取，并进行中文分词处理及文本聚类、LDA主题模型分析。这篇文章将抓取微博话题及评论信息，采用SnowNLP进行简单的情感分析及文本挖掘，包括随时间的情感分布。希望这篇基础性文章对您有所帮助

python爬虫实战案例——从移动端接口抓取微博评论，采用cookie登陆，数据存入excel表格，超详细（15）

@优快云盲敲代码的阿豪的博客

10-17

434

进入网站（https://m.weibo.cn/detail/4813628149072458），由于网站需要登录，我们先用账号登录，然后打开开发者模式，因为pc端网页数据包不好分析，我们可以切换为客户端模式获取数据包。开头的文件，分析得到这是第二页的数据包接口，对比第一页数据包接口和第二页数据包接口，发现两者参数中。，我们需要找到它，如下，我们发现在第一页数据接口的网页源码中就包含了第二页数据接口的参数。，要找到它，我们发现第一页数据包接口的网页源码中包含了第二页数据包接口的参数。

参与评论您还未登录，请先登录后发表或查看评论

Python笔记--菜鸟爬虫（爬微博评论）

weixin_39599440的博客

05-07

6104

第一次爬虫就是爬微博的评论（爬虫—只要能看就能爬）准备工作： Python2.7（看个人习惯）、FireFox浏览器（看个人习惯） Python安装什么的网上一大堆教程，我不班门弄斧了 FireFox感觉我个人感觉好用一点，比起全英版的Chrome from selenium import webdriver#这是重中之重咯，现在微博的评论都是有动态加载的，我是靠这个去控制鼠标行为的 impor...

微博评论信息爬取

最新发布

qq_56058244的博客

03-29

1929

微博评论数据爬取，帮助了解微博评论的相关信息

微博二级评论爬取

dianyin7770的博客

03-08

1307

def wb_child_comment(self,req): try: main_url = "https://weibo.com/aj/v6/comment/big?ajwvr=6&{}&from=singleWeiBo" # self.get_all_content(req) ...

单个微博评论爬取（可二级评论）

qq_69398767的博客

05-07

1119

2.根据对应微博，查找对应pid及id（uid）使用指南（main里面）1.修改保存的文件路径。

mongoose 实现评论功能（一级和二级评论）

Zhooson的博客

12-09

2836

创建数据，可以创建一级和二级评论，查询返回数据整合数据返回，具体实现效果如下。具体启动node，连接mongodb ，创建router，controller等操作自行处理。最终的数据结构 1. 创建model 一级评论 parentId：0，二级评论为 parentId：_id from to 可以关联User表，这里为了演示，只当输入字段处理 const mongoose =...

从0开始码第一个Spring Boot项目（javaweb个人博客系统）之完成文章一级/二级评论功能

Wanik666

03-15

1745

目录1. 效果预览1.1进入首页1.2 测试评论功能2. 功能实现2.1 文章详情页布局(articleDetail.html)2.2 一级/二级评论回复功能2.3 二级评论显示功能 1. 效果预览 1.1进入首页进入首页后点击一篇文章进入： 1.2 测试评论功能进入文章详细列表后，上方为文章内容区域，下方为文章评论区域对此评论框做了数据校验，如果评论内容为空，给出提示并返回，否则评论成...

java 一级和二级评论的实现

weixin_40918145的博客

07-28

1309

import java.util.Date; import java.util.List; import com.fasterxml.jackson.annotation.JsonInclude; import com.fasterxml.jackson.annotation.JsonProperty; import lombok.Data; import lombok.Getter; import lombok.Setter; @Data @JsonInclude(JsonInclude.Inclu.

[数智人文实战] 03.舆情分析之基于SnowNLP的公共事件情感分析

杨秀璋的专栏

06-09

1084

《数智人文实战》专栏将以实战为主，分享数智人文相关的案例100个，旨在帮助初学者和探索数智人文发展。前文分享了中文分词处理及文本聚类、LDA主题模型分析。这篇文章将抓取微博话题及评论信息，采用SnowNLP进行简单的情感分析及文本挖掘，包括随时间的情感分布。希望这篇基础性文章对您有所帮助，也非常感谢参考文献中老师的分享！

2021-02-04-scrapy爬虫案例1：爬取博客园新闻版块详情页-基础入门篇

誉天小鹿的博客

09-24

1366

作者：Barranzi_ 注：本文所有代码、案例测试环境：1.Linux – 系统版本：Ubuntu20.04 LTS 2.windows – 系统版本：WIN10 64位家庭版所需第三方库安装 pillow pip install pillow -i https://pypi.douban.com/simple mysqlclient pip install mysqlclient -i https://pypi.douban.com/simple 新建scrapy项目

微博web端一级评论和二级评论接口的响应体

04-26

微博weibo.com 端一级评论和二级评论接口返回的相应体，因为这个是unicode编码的，看不到中文，这里已经解码过，可以使用bs4等工具直接提取内容

踩坑的Python爬虫：新手如何在一个月内学会爬取大规模数据？

python入门学习进阶教程

04-26

1460

Python爬虫为什么受欢迎如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，这里要注意：不管你是为了Python就业还是兴趣爱好，记住：项目开发经验永远是核心，为解决初学者学习上的困难...

b站评论功能(一级评论到n级)

weixin_43294560的博客

08-10

2462

一二级评论无@显示,所以可以直接v-for渲染,二级评论之后会有@,利用组件递归实现代码示例: 数据: arr :[ {comment_id: 1, user_id: 43, comment_date: "04-23", comment_content: "蜡笔小新很好看!", parent_id: null,userinfo:{name:'jeff1'}}, { comment_id: 2, user_id: 19, comment_date: "04-24", comme

python爬虫之爬取微博评论（4）

m0_61973119的博客

04-17

1581

随机选取一个微博，例如下面这个1、fn+f12，然后点击网络，搜索评论内容，然后预览，就可以查看到网页内容里面还有评论内容2、编写代码，获取网页信息，url是点击网络，然后点击标头，就会出现一个请求url3、但是我们发现这个并不是像我们想的一样，将网页的文本用文字的方式呈现，那么接下来我们要用到一个方法，让我们能够用文字的方式输出网页数据----->定义请求头。

爬虫案例 -- 微博一级评论

几许的博客

05-03

944

编写一个爬虫的基本实现思路可以概括为以下几个步骤。请注意，由于爬虫可能涉及法律和道德问题，特别是当它们用于未经授权地抓取网站数据时，因此在开始之前，请确保你的爬虫行为符合目标网站的robots.txt规则以及当地的法律法规。

微博评论数据爬取以及分析

热门推荐

网页爬虫与数据采集 · 八爪鱼

09-06

2万+

#不许你没看过の系列！# 吹爆最近的国漫《哪吒之魔童降世》从故事情节、角色设计到特效处理都非常牛！！！ #连海报都好好看啊# 上映首周票房已经达到14.1亿！打破国漫票房记录！豆瓣评分达到8.6分！ 14亿票房背后，到底是谁成为《哪吒》票房主力军呢？今天小编用八爪鱼数据采集爬取4794条《哪吒之魔童降...

wb评论获取（一级评论和二级评论）

weixin_38944349的博客

08-16

422

python获取wb评论（一级评论和二级评论）

javaScript爬虫程序抓取评论

weixin_44617651的博客

11-08

651

由于评论区目前没有开放的API接口，所以我们不能直接通过编程获取到评论区的内容。但是，我们可以通过模拟浏览器的行为来实现这个功能。以下是一个使用Python的requests库和BeautifulSoup库来实现这个功能的基本思路：

python爬取微博二级评论

12-29

### 使用 Python 抓取新浪微博二级回复教程 #### 准备工作为了成功抓取微博的二级评论，需先安装必要的库。可以使用 `pip` 安装这些依赖项： ```bash pip install requests beautifulsoup4 lxml ``` #### 获取请求头和参数访问微博页面时，浏览器会发送特定的HTTP头部信息以及URL查询字符串参数。对于微博API接口而言，通常需要设置User-Agent来模拟真实用户的浏览行为[^2]。 #### 构建请求函数构建一个通用的GET请求函数用于发起网络请求并处理返回的数据。此部分代码展示了如何定义这样一个辅助方法: ```python import json import time from urllib.parse import urlencode import requests def get_page(url, params=None): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', 'Referer': 'https://m.weibo.cn/' } try: response = requests.get(url=url, params=params, headers=headers) if response.status_code == 200: return response.json() else: print(f"Error occurred while fetching page: {response.status_code}") return None except Exception as e: print(e) return None ``` #### 解析JSON响应微博API返回的结果通常是JSON格式，在这里解析这个结构化数据以提取所需的字段。下面是一个简单的例子展示如何遍历每一条顶级评论及其子级(即二级)评论列表: ```python def parse_comments(data): items = [] comments = data['data']['replies'] or [] # 如果存在则获取顶层评论 for comment in comments: item = {} item['id'] = str(comment['id']) item['text'] = comment['text'] item['user_name'] = comment['user']['screen_name'] subcomments_url = f"https://m.weibo.cn/comments/hotFlowChild?cid={item['id']}&max_id_type=0" result = get_page(subcomments_url) if isinstance(result, dict): child_comments = result.get('data', []) children = [] for cmt in child_comments: child_item = {'sub_user':cmt['user']['screen_name'], 'sub_text':cmt['text']} children.append(child_item) item['children'] = children items.append(item) return items ``` #### 主逻辑实现最后一步就是组合上述组件完成整个流程控制。通过循环调用`get_page()` 和 `parse_comments()`, 可持续加载更多页数直到达到最大限制或无更多信息为止。 ```python if __name__ == '__main__': base_url = "https://m.weibo.cn/api/statuses/repostTimeline?id=" weibo_id = input("请输入要爬取的微博ID:") max_pages = int(input("请输入最多爬取多少页:" )) all_items = [] for i in range(max_pages): url = base_url + weibo_id + "&page=" + str(i+1) res = get_page(url) if not res: break new_items = parse_comments(res) all_items.extend(new_items) time.sleep(1) # 防止频繁请求被封禁 IP 地址 with open('./weibo_comments.json','w+',encoding='utf-8')as fp: json.dump(all_items,fp,ensure_ascii=False,indent=2) ```