B站评论爬虫

最新推荐文章于 2025-11-17 12:05:30 发布

原创

最新推荐文章于 2025-11-17 12:05:30 发布 · 4k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了一个简单的B站评论爬虫，适用于初学者。通过参考B站UP主的视频，作者修改并实现了一个爬虫，仅抓取每个ID的唯一评论，包括楼中楼评论。使用Python进行开发，通过观察网络请求分析评论页面URL规律，从而获取评论数据。

是一个很简易的爬虫，我自己作业用一下下，参考的是B站一位叫大野喵渣的up的视频，点我看
在这个基础上根据我自己的水平和需要稍作修改，希望能给向我一样不知爬虫为何物但是确实需要用的24k纯小白一些帮助。
这里只爬评论，目的是要那种排列好一行一行的评论，包括楼中楼评论，但是每个id只爬取一条。

首先打开python，用这三个包

import requests
import json
import pprint

在打开我们要爬的视频，右键检查，点network，不用点刷新，直接点评论最后一页，在查找框里随便输入此页的一个评论，点开它得到URL，
在这里插入图片描述
另起一页打开，发现是肥肠抱歉，把网址里&前的一长串数字包括&删掉，

就看到一大坨代码中间夹杂着评论和用户信息一类的东西，复制这个网址。

上图pn=80就是我爬的视频的最后一页是第80页。

r = requests.get('填复制好的网址')
data = json.loads(r.text)

for page in range(1,最后一页的页码):
	r = requests.get('还是那个网址，将其中pn=的数字删掉，换成{}'.format(page))
	data

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

巫叠玛溪

关注关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python实战项目2：b站评论采集

lyccomcn的博客

04-04

2993

本文不对数据采集的过程做探讨，直接上代码。

B站视频评论的爬虫与数据分析

2201_75470660的博客

06-20

3663

1.通过爬虫将数据存储下来2.生成词云图非常直观的输出评论高频字眼3.生成柱状图和饼状图来分析B站视频评论3基本功能描述3.1基本功能实现了使用Selenium库进行B站视频评论的爬取，并将评论数据保存到CSV文件中。然后使用Pandas和其他相关库对评论数据进行了基本的数据分析和可视化。具体功能描述如下：1.使用Selenium库进行模拟浏览器操作，加载指定B站视频页面。2.使用XPath表达式提取页面中的评论内容和评论时间。3.将提取的评论内容和评论时间写入CSV文件中。

参与评论您还未登录，请先登录后发表或查看评论

B站评论爬虫实战：从数据获取到情感分析

mz159_357的博客

10-03

1139

本文详细解析了B站评论爬虫的技术实现方案。主要内容包括：1. B站API接口分析与数据结构解析，包含评论获取、分页机制和二级评论请求方法；2. 技术难点解决方案，涉及Wbi签名验证、反爬机制应对、频率控制和数据完整性保障；3. 情感分析实战，介绍了基于词典和预训练模型的两种分析方案；4. 实际应用场景，如舆情监控、热点话题挖掘和用户画像分析；5. 完整实现示例和最佳实践建议。文章提供了从数据采集到分析应用的全流程技术方案，同时强调了合规性和性能优化的重要性。

爬取B站评论

最新发布

weixin_46143664的博客

11-17

430

其实把o = function o(i, a)这个函数交给AI就知道是md5加密了，但也不是每次都能知道，所以还是自己走一遍比较好。发现第一次pagination的offset是空的，后续是固定值，w_rid是一直在变化的，wts在变，是时间戳。ReferenceError: tt is not defined，缺tt，全拿这段，缺e，定位到e，点击后，因为后续也有声明t，所以直接拿整个!显然，w_rid的值是来自at(v+a)，其他断点可以释放了，逐个打断点，进行调试，对比参数值，刷新页面。

b站直接用BV号爬虫抓取评论

qq_44861455的博客

04-20

4350

b站的评论由js加载，所以我们有两种方法获取，第一种用selenium，拖拽导航条，刷新出评论再抓取（效率低且代码量大）第二种直接找到js接口去获取数据先说下我一开始的思路我刚开始不确定是xhr还是js，所以现在xhr中找，发现并没有，于是搜索了js，发现在这个接口里 page代表页数和评论数量，replies是所有评论的内容于是我们开始分析这个接口的参数刚开始我以为callbac...

python爬虫爬取B站评论

weixin_51575130的博客

11-27

7033

打开开发者工具，下滑页面数据让数据加载出来，随便选择一条评论复制，粘贴到开发工具中的搜索框中，找到对应的包。爬取当前页面的评论信息，用户昵称，性别，前面，内容，发布时间，归属地等。在这里随便点开B站首页推送的一个视频内容。当前页面的评论信息在 replies中。这里使用requests方法。爬取结果保存为csv文件。2.发送请求，访问网址。4.持久化存储，保存在。

python爬取b站评论_b站评论爬取

weixin_39609620的博客

11-24

589

var userData = {};var startPage = 0;var endPage = 0;var startTime = "";var endTime = "";var pickSum = 0;var dateItem = new Date();function StartDraw(_startPage, _endPage, _startTime, _endTime, _pickSu...

毕设&课设：基于 PyQt6 开发的 B 站评论爬虫桌面应用，支持评论批量采集、智能管理和数据分析，采用现代化暗.zip

08-14

B站评论爬虫--爬取游戏主页评论

数据小红的博客

04-08

2537

由于公司需要监控到不同时间段用户观点的变化，需要爬取各个平台下我们用户的评论，因此，B站评论爬取的需求诞生啦！！~~看了网上的其他教程，都没有我这个类型的（大多数是普通的up上传的视频），我这个呢，是官方游戏主页（也许可以这么叫吧，我也不知道，反正就是从地址上看就不大一样，是http://www.biligame.com开头的）那么这种特别一点的评论要怎么爬取呢？接下来我们一起来解决吧~ 查找评...

基于python的B站评论爬虫及抽奖项目！确实方便好用！

爬遍所有网站

08-22

915

前言随着新型娱乐产业的快速发展，众多人为了为自己的视频吸引观众，通常会用华美的奖品吸引观众，但是观众通常因为对up主的不信任导致参与活动不够活跃，而且考虑到有时up主可能用各种技巧耍诈的情况发生，所以信任关系并不是那么的深刻。但是机器是不会骗人的！于是今天的项目应运而生，这是一个由python爬虫编写的抽奖系统。这里用的是python语言一、先设计对这个爬虫建立软件工程模型本程序有三个步骤，我们使用的是无头爬虫，比较适合新手入门。将想要爬取的数据写入到xls文件中，所以本爬虫有三大步。第一：

精选资源

Python爬虫-B站动漫数据分析与可视化

11-18

b站全称哔哩哔哩,是中国最大的ACG动漫网站，也是中国目前事实上最大的线上宅文化社区。其中动漫通常以一个季度播出，因而被称为番剧。涉及题材范围广，有奇幻，日常，战斗等。一部番剧上线后，在一段时间内追番人数...

爬虫学习笔记--爬B站评论

Qin_xian_shen的博客

10-12

4369

由于松爱协会的小伙伴邀请，我研究了一下爬取b站上协会的一些精彩评论由于评论是动态的，所以要用到 selenium 之前的博文里已经有关于selenium的安装注意事项还要用到Firefox的firebug 去获取xpath信息 target = app.find_element_by_xpath(".//*[@id='recommend_report']/di

web自动化B站评论爬虫

m0_73693562的博客

02-17

993

使用的第三方库：drissionpage（官方文档：💥 4.1 功能介绍 | DrissionPage官网）、pandas、openpyxl使用的编程环境：PyCharm使用的浏览器：chrome思路：通过监听接口来获取存放评论相关的数据包，再提取出所需要的数据，最后保存到xlsx文件内。与上篇相似，本文还是通过web自动化技术的监听接口的方式来进行爬虫。既然要监听接口，那我们就要确定哪个接口存放我们想要的数据。

B站評論爬蟲教程

m0_55847174的博客

09-01

453

B站評論爬蟲教程(直接套代碼，不多加解釋) 1. 取得評論區存儲區 html 核心資訊 1.1 打開所需的bilibili網站 1.2 按F12 1.3 按Ctrl+R或F5 1.4 把主頁面拖動到評論區任一處 1.5 選擇JS 1.6 找到任一個 “main?callback” 文件 1.7 雙擊任一個 “main?callback” 文件，瀏覽 “Header” 資訊，找到並複製 “Request URL” 1.8 取出 “type” 和 “oid” 資訊" 以上圖為例，Request UR

最新的B站弹幕和评论爬虫，你们要的冰冰来啦！

AI科技大本营

09-27

5663

作者 |周萝卜来源 |萝卜大杂烩最近想爬下B站的弹幕和评论，发现网上找到的教程基本都失效了，毕竟爬虫和反爬是属于魔高一尺、道高一丈的双方，程序员小哥哥们在网络的两端斗智斗勇，也是精彩纷呈。当然了，对于爬虫这一方，爬取网站数据，一般目的都是比较明确的，比如我这里就是为了冰冰，废话不多说，开干！获取弹幕数据这里先声明一点，虽然网络上的整体教程都失效了，但是有一些步骤还是可以参考的，比如我们可以知道，对于弹幕数据，我们是可以通过如下的一个接口来获取的 https://comme..

python爬虫：Ajax异步爬取数据（b站评论区）

qq_46145027的博客

04-07

4023

爬虫时遇到很多数据并不在访问网址的返回包里，而是随着用户下拉逐步加载的，也就是用到了Ajax，那么这时我们该如何爬取我们想要的数据呢？

B站弹幕和评论爬虫

LKIDTI数据的博客

04-10

1540

通过观察可以得知，响应消息里的 replies 就是主评论内容，同时我们还可以改变 url当中的 next 参数来翻页，进而请求不同的数据这里我们再关注下 rpid 参数，这个会用于 reply 评论中再来看看 reply 评论，同样可以使用 requests 直接访问，同时 url 当中的 root 参数就是我们上面提到的 rpid 参数。数据还是非常干净的，那么下一步就是看如何获取这个 xml 的 url 地址了，也就是如何获取 324768988 ID接下来我们搜索整个网页的源码，可以发现如下情况。

Python学习笔记——爬虫爬取B站视频信息及评论内容

qyd2023的博客

05-28

1903

b站评论爬虫

【2024年最新】BilibiliB站视频动态评论爬虫

m0_74823892的博客

12-27

2172

首先，让我们了解，动态网站/静态网站的区别：动态网站除了要设计网页外，还要通过数据库和编程序来使网站具有更多自动的和高级的功能。动态网站体现在网页一般是以aspjspphpaspx等技术，而静态网页一般是HTML标准通用标记语言的子集）结尾，动态网站服务器空间配置要比静态的网页要求高，费用也相应的高，不过动态网页利于网站内容的更新，适合企业建站。动态是相对于静态网站而言。——百度百科通俗来说，就是网页内容是否写在网站源代码里面的区别。

b站评论爬虫

09-03

B站评论爬虫的实现方法通常涉及分析反爬机制、请求模拟、页面解析、数据提取和存储等步骤，还可加入代理信息以规避反爬虫机制。以下是根据引用内容总结的相关实现思路及代码示例说明：实现方法： - 分析反爬机制：了解B站的反爬虫策略，如IP封禁、请求频率限制等，为后续规避做准备。 - 请求模拟：模拟浏览器请求，包括设置请求头信息，伪装成正常用户的访问行为。 - 页面解析：对获取的页面内容进行解析，可使用如正则表达式、BeautifulSoup等工具。 - 数据提取：从解析后的页面中提取所需的评论数据。 - 数据存储：将提取的评论数据保存到合适的存储介质中，如数据库。 - 规避反爬虫机制：在代码中加入代理信息，避免因频繁请求被封禁IP。代码示例：虽然引用中未给出具体代码，但结合上述思路，一个简单的Python爬虫框架示例如下（仅为示意，实际应用需根据B站接口和反爬机制调整）： ```python import requests from bs4 import BeautifulSoup # 设置请求头，模拟浏览器访问 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 视频评论页的URL，需替换为实际URL url = 'https://example.bilibili.com/video/comment' try: # 发送请求 response = requests.get(url, headers=headers) # 检查请求是否成功 if response.status_code == 200: # 使用BeautifulSoup解析页面 soup = BeautifulSoup(response.text, 'html.parser') # 提取评论数据，这里需要根据实际页面结构调整选择器 comments = soup.find_all('div', class_='comment') for comment in comments: print(comment.text) else: print(f"请求失败，状态码: {response.status_code}") except requests.RequestException as e: print(f"请求发生错误: {e}") ```