b站视频地址与标题爬虫

本文介绍了如何使用selenium和BeautifulSoup结合爬取B站视频搜索页面上的视频标题和对应URL。通过定位特定的HTML标签,提取出含有视频信息的部分,并展示了在爬取过程中遇到的空链接和最后一页处理问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

初探 selenium 及 BeautifulSoup

上周写过一个爬取图片的小爬虫,当时说希望之后可以写一个可以递归或者遍历的爬虫,因为这几天比较累,所以正好想写一个爬取b站的爬虫放松一下心情。

首先,明确要爬什么。我看了一下b站网页上的内容,决定,还是以爬取视屏标题以及对应网址作为内容。看一下他的搜索页面网页源代码:
比如:
搜索:我的危险妻子(这是一部日剧),跳转到搜索页面:
页面代码
可以看到与视频链接相关的比较具有特征的是div标签class属性为headline,链接在a标签的href属性中那么,我们可以用简单的语句把他们提取出来

这里写图片描述
这里写图片描述
这里的response是浏览器传来的页面源代码,这个我们后面再说,通过以上两句,我们已经可以从网页源代码中挑选出符合我们要求的标签列表。
这里说明一下,
* div.headline 表示div标签class属性为headline
a[href^=http://] 表示a标签href属性的值以http://作为开始 *
匹配我觉得是非常重要的一个方面,有兴趣值得深入学习,应该会对爬取效率有帮助。这里就不详细说了。
这样,我们仅仅是把 url 爬取下来,但详细信息并不知道,第二布,就是要再怕去这些 url对应的网页获得想要的信息。
方式和第一步大同小异,这里直接放代码,


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值