b站视频地址与标题爬虫

最新推荐文章于 2025-04-29 11:56:56 发布

原创

最新推荐文章于 2025-04-29 11:56:56 发布 · 3.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了如何使用selenium和BeautifulSoup结合爬取B站视频搜索页面上的视频标题和对应URL。通过定位特定的HTML标签，提取出含有视频信息的部分，并展示了在爬取过程中遇到的空链接和最后一页处理问题。

初探 selenium 及 BeautifulSoup

上周写过一个爬取图片的小爬虫，当时说希望之后可以写一个可以递归或者遍历的爬虫，因为这几天比较累，所以正好想写一个爬取b站的爬虫放松一下心情。

首先，明确要爬什么。我看了一下b站网页上的内容，决定，还是以爬取视屏标题以及对应网址作为内容。看一下他的搜索页面网页源代码：
比如：
搜索：我的危险妻子（这是一部日剧），跳转到搜索页面：
页面代码
可以看到与视频链接相关的比较具有特征的是div标签class属性为headline，链接在a标签的href属性中那么，我们可以用简单的语句把他们提取出来

这里写图片描述

这里的response是浏览器传来的页面源代码，这个我们后面再说，通过以上两句，我们已经可以从网页源代码中挑选出符合我们要求的标签列表。
这里说明一下，
* div.headline 表示div标签class属性为headline
a[href^=http://] 表示a标签href属性的值以http://作为开始 *
匹配我觉得是非常重要的一个方面，有兴趣值得深入学习，应该会对爬取效率有帮助。这里就不详细说了。
这样，我们仅仅是把 url 爬取下来，但详细信息并不知道，第二布，就是要再怕去这些 url对应的网页获得想要的信息。
方式和第一步大同小异，这里直接放代码，

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。