前言:
本文使用了两种主流的爬虫方法爬取了同一个网站资源,一个是selenium,一个requests。
本篇将介绍selenium的方法,requests的方法下次再介绍,
另外将本文作为自己练手的一个记录,也顺便分享给刚学习python爬虫的同学们。
所用到的第三方插件库如下,请同学自行安装,不另做安装教学。
- selenium
- requests
- you-get
Selenium
写完的脚本运行起来大概是这个效果,根据输入的关键字,比如papi酱,
程序将在B站下载所有与papi酱相关视频的到本地:
首先我们来梳理一下使用selenium爬取b站视频的思路,
- 想办法得到搜索后的页面
- 找到该页面所有视频的URL
- 将视频挨个下载到本地
1.<想办法得到搜索后的页面>
在对B站网页设计及框架元素做分析的时候发现不用登陆,也可以看视频,
而且在做搜索的时候是GET请求,
这代表我们可以直接在URL拼写欲搜索的关键字 和页数进行访问。
第一步的需求明了了,我们直接敲代码,
由欲搜索的关键字 和页数控制循环的页面,
# coding=utf-8
from selenium import webdriver
import time,os
search_name = input('您想要爬取的视频关键字是?\n(输入完毕请按回车):') #输入要爬取的关键字
driver = webdriver.Firefox() #使用火狐浏览器
pages = 51 #设定要爬取的总页数
for page in range(1,pages): #翻页循环从第1页开始
#GET请求打开网址,两个变量,search_name是关键字,page是页数。
driver