爬虫中使用selenium实现对斗鱼直播的各个房间标题、主播id，直播内容类型和热度信息的爬取

最新推荐文章于 2025-09-24 06:46:17 发布

原创

最新推荐文章于 2025-09-24 06:46:17 发布 · 2.9k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫 #selenium

每日分享：

千万不要因为别人的否定就开始自我否定，人生本来就是一个主观的过程，别人是否喜欢你，其实是对方世界的事，所以面对别人的不喜欢，不要自卑不要刻意讨好，你要专注的做自己

思路分析：

url（网页的url）
创建driver对象
发送get请求
parse data（分析处理数据）
save data（保存数据）
翻页

在一个循环中反复执行4、5、6操作，如果到最后一页则跳出循环。

再说一些我写代码遇到的一些问题：

用xpath可以找到你想找的元素，但如果要对其进行点击操作，需要先下滑页面至页面内有该元素之后才可以点击
关于斗鱼中每个房间的封面图片的爬取，花了很多时间尝试，感觉应该设置有反爬，直接爬取，爬到了三张图片，后来设置了休眠时间，爬到图片多了几张，20s爬一张也只爬了不到十张。（因为自己也是初学者，还没有学习反爬、反反爬，所以就放弃了）
下滑操作前的time.sleep(1)是一定要写的（休眠时间自己设定），当时我是在这卡了很长的时间，因为发现网页并不下滑，所以也导致“下一页“这个元素点击失败。如果不设置休眠一秒，仔细看会发现，并不是页面不下滑，是页面下滑了之后又回到了顶部，可能这是一种反爬吧。
建议下一页的xpath自己用一个靠谱的方法写，比如用内容查找；当时直接复制的标签的xpath，翻页到第四页就

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。