今天在水群的时候看到了链接,每次进入都会随机播放视频,学爬虫不久的我就想到了把视频下载保存起来。于是就写了一个小爬虫
什么是爬虫
首先简单的理解一下爬虫。即请求网站并且提取自己所需的数据的一个过程。至于怎么爬如何爬,将是后面进行学习的内容,暂且不必深究。通过我们的程序,可以代替我们向服务器发送请求,然后进行批量、大量的数据的下载。
1.打开链接
首先打开网页链接,F12打开开发者模式,点击开发者模式最左侧的小方块带一个小箭头的图标,对元素进行检查发现源码中并没有想要的视频链接
打开源码进行查找,也没有想要的视频链接,判断视频链接不在源码中
点击筛选返回的数据中的媒体文件,找到了后缀为mp4的的类型
打开了请求的URL发现是要找的小姐姐视频,点击下一个mp4类寻找线发现mp4文件携带的信息不同,判断信息为随机的五位数字。这样写起爬虫来就舒服了,不用在原来的URL上麻烦,直接顺次输出五位数字来代替mp4文件的原来五位数字
#bcyle.com/nvz.bcyle.com/f/nvz.bcyle.com.55518.mp4
#bcyle.com/nvz.bcyle.com/b/nvz.bcyle.com.28716.mp4
代码解释
通过for i in range对URL进行多次请求,获得不同页面的网页源代码
运用requests库对重新组装的URL进行请求,head是发送的请求头用来模拟浏览器记录
获取网页的源码转换成content形式,写入到文件内后缀为mp4的文件格式
import requests #导入requests模块
#对a进行顺次输入到链接内
a=33
b=int(input('请输入要下载的视频数量:'))
for i in range(b):
#url="http://nvz.bcyle.com/"
url="http://nvz.bcyle.com/nvz.bcyle.com/i/nvz.bcyle.com.840{}.mp".format(a)
#print(url)
a+=1
head = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.53'
}
res=requests.get(url,headers=head) #对链接进行请求获取源码
content=res.content
将视频保存到文件内,给不同视频命名不同名字
with open('D:\python\爬虫练习库\视频爬取\视频\视频'+str(a)+".mp4","wb")as f:
f.write(content)
print(a,"个视频下载完成")
#注意视频的下载地址要进行替换不然会报错,就这样
每日一更