这里的话接着我们我们上一篇selenium自动化工具的使用,这一次我们去抓取一下某手视频数据,当然只是用来学习,不能爬多了,只能学习上爬一点点,不能妨碍了这个视频网站的运行,遵守我们的网络安全法律!
有时候就在想可不可以去使用自动化工具去抓点视频来看看,于是就出了今天这节课程!
以我们这个某视频网站为例子吧:精彩推荐-快手
这里一些基本知识就不介绍了,直接进入正题!
首先就是
导包: from selenium import webdriver driver= webdriver.Chrome(executable_path=接上我们安装的驱动的路径) driver.get('https://www.kuaishou.com/new-reco')
这样浏览器就可以去抓取我们的视频网站,接下来就到视频页面的具体操作了!
这里我的思想是直接抓取推荐页面的视频数据,我发现当前视频的url都在这个<video>标签的src属性中,于是我们就可以去抓取当前视频的url数据,拿到之后再利用我们的lxml库去抓取视频链接,再用request库去下载我们的视频。
但是后面想了一下我不能只抓一个视频,于是再去找找这些视频的url有什么规律,后面我发现了,就是当前页面我们搜索<video>标签可以得到3个,3个当中都有一个视频url,且都对应着我们这个视频。当我用ActionChains动作链去点击我们键盘下键,实现翻页时,又会得到一个新的3个<video>标签,且3个url都指向着翻页那个页面的视频。到这里大家估计都知道我要做啥了-----》
就是直接定义一个for循环,每隔几秒就翻页,这不就可以得到我们的视频url吗,然后再去request抓取视频!
这里的话就不一一展示了,就直接附上源码!【代码还算简洁,没有搞一些其它的东西ÿ