selenium案例——爬取哔哩哔哩排行榜

最新推荐文章于 2025-05-11 03:16:51 发布

人生の三重奏

最新推荐文章于 2025-05-11 03:16:51 发布

阅读量1k

点赞数 24

文章标签： selenium 测试工具爬虫 bs4

本文链接：https://blog.youkuaiyun.com/qq_53256193/article/details/142713956

版权

案例需求：

1.使用selenium自动化爬虫爬取哔哩哔哩排行榜中舞蹈类的数据（包括视频标题、up主、播放量和评论量）

2.利用bs4进行数据解析和提取

3.将爬取的数据保存在本地json文件中

4.保存在excel文件中

分析：

1.请求url地址：https://www.bilibili.com/v/popular/rank/dance

2.加载等待事件，否则获取数据不充分

wait = WebDriverWait(self.browsers, 280)
wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'rank-item')))
time.sleep(5)

3.获取相应内容

last_height = self.browsers.execute_script("return document.body.scrollHeight")
while True:
    self.browsers.execute_script('window.scrollTo(0, document.body.scrollHeight);')
    time.sleep(5)
    data = self.browsers.page_source  # 获取网页源码
    self.parse_data(data=data)
    new_height = self.browsers.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break
    last_height = new_height

4.使用bs4解析数据

soup = BeautifulSoup(data, 'lxml')
titles

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

人生の三重奏

关注关注

24
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

爬取b站的评论并进行可视化

2201_75548546的博客

09-27

6745

csv表格截图： 2D条形图以及3D条形图: 一个异步加载请求库：pip install selenium (下载对应版本可用selenium == )两个可视化库（任选其一即可）：pip install matplotlib（下载对应版本同以上方法）pip install pyecharts （下载对应版本同以上方法）由于b站api参数更改了，未能够找到合适的方式进行分页爬取，故采用以下两种方式打开开发者工具，找到图中红圈的位置打开后查看其中的json信息找到replies，如下图所示：每一则u

python 爬取周董新歌《Mojito》MV弹幕，看看粉丝们都说了些啥

2301_79099460的博客

04-07

398

这里还有最后一点需要提醒大家的。观察目录页的那个接口(网址如下)，里面有一串字符串BV1PK4y1b7dt，我们先不管这个参数是什么，我们只关心这个字符串从哪里来的呢？https://api.bilibili.com/x/player/pagelist?bvid=BV1PK4y1b7dt&jsonp=jsonp最后我们观察这首MV的原始网址(网址如下)，原来这个字符串就在这首MV的原始网址中。好了，说到这里，我就将B站弹幕数据爬取的一些参数的来龙去脉，给大家讲清楚了，下面我们开始代码部分吧。https://

参与评论您还未登录，请先登录后发表或查看评论

python爬虫：Ajax异步爬取数据（b站评论区）

qq_46145027的博客

04-07

3910

爬虫时遇到很多数据并不在访问网址的返回包里，而是随着用户下拉逐步加载的，也就是用到了Ajax，那么这时我们该如何爬取我们想要的数据呢？

Python爬取B站评论：从零到实战

热门推荐

榕城候佳人的博客

08-15

1万+

今天花了一上午探究如何用selenium获取b站视频下面的评论，一开始只是想用一个视频来练练手，后面逐渐改成了所有视频都适用的完整代码。因为我是用的jupyter，所以整个代码包括两个部分。下面这段代码用于完成获取自动登录b站所需的cookie。下面是第二段代码，具体讲解我会放在b站上。下面的代码大家可以直接运行，还可以更换视频地址。

爬取B站评论区

fwkgeass的博客

02-24

2009

# 开发时间：2022/2/22 10:38 import requests import json import os table = 'fZodR9XQDSUm21yCkr6zBqiveYah8bt4xsWpHnJE7jL5VG3guMTKNPAwcF' tr = {} for i in range(58): tr[table[i]] = i s = [11, 10, 3, 8, 4, 6] xor = 177451812 add = 8728348608 samename = {} sam.

哔站评论爬取

yzx991013的博客

12-27

4212

代码如下：q=0.9,en;q=0.6',v="24"',0',Win64;

基于selenium爬取b站排行榜的python程序

qq_73715014的博客

10-15

293

这是一个十分简单的使用selenium以及xml进行快速定位网页元素的程序。

shine4869的博客

11-22

4286

目录一、scrapy基本介绍二、爬虫分析三、各部分代码一、scrapy基本介绍二、爬虫分析三、各部分代码

爬取哔哩哔哩任意网站，以selenium为例

2302_77722632的博客

12-20

603

print(f'标题: {title.text.strip()}, Up: {up.text.strip()}, 播放量: {play.text.strip()}')print(f"标题：{title.text}，播放量：{count.text.strip()}，弹幕数：{dm.text.strip()}")print(f"评论：\nID:{comment['name']}，评论内容：{comment['text']}")#输出所有符合xpath的结果。#使用xpath筛选数据。#对感兴趣的数据进行提纯。

python爬取bilibili数据_python基础教程之selenium+phantomjs爬取bilibili

weixin_31368989的博客

02-21

444

selenium+phantomjs爬取bilibili首先我们要下载phantomjs 你可以到 http://phantomjs.org/download.html 这里去下载下载完之后解压到你想要放的位置你需要配置一下环境变量哦如下图：首先，我们怎么让浏览器模拟操作，也就是我们自己先分析好整个操作过程，哪个地方有什么问题，把这些问题都提前测试好，没问题了再进行写代码。打开bilibili...

Python爬取哔哩哔哩视频的相关信息后续

闲客的博客

08-03

1324

上一篇文章通过selenium工具自动搜索爬取哔哩哔哩上面的视频相关信息，今天我们接着上一篇文章，保存视频的图片到本地。首先找到要爬取的网页数据所在的位置，如下图并且，右键点击该网址，可以选择在新标签页中打开，在新标签页中，除了显示图片不会显示其他东西。如下到这就是原本的图片数据了，如果跳转过后依然不是这样，就需要继续往下寻找到最终的图片数据地址。在昨天的基础上就添加了一个保存图片的函数，上代码。 def img_save(soup): img_url_list = soup.find(c

哔哩哔哩爬取

我姓罗

12-20

3087

哔哩哔哩视频弹幕爬取

qq_34272745的博客

08-22

970

首先进入一个视频的界面，F12浏览network,限定XHR，播放视频，搜索list,这时会有一个如下截图一样的请求 Request URL:https://api.bilibili.com/x/player/pagelist?bvid=BV11D4y127tj&jsonp=jsonp，对该url发起请求后，会得到一个json，json里包含了cid 通过cid的拼接，‘https://comment.bilibili.com/’ + cid + ‘.xml’,得到一个url，该url.

selenium爬取哔哩哔哩

02-23

### 使用 Selenium 实现哔哩哔哩网页自动化与数据采集为了实现对哔哩哔哩网站的数据抓取，可以采用 Python 中的 Selenium 库来模拟浏览器行为并进行页面解析。具体来说，Selenium 能够驱动 ChromeDriver 来加载由 ...