
Python爬虫
文章平均质量分 88
Python爬虫
九圣残炎
没有天赋的我也有成为大神的梦想,并为此梦想努力前行
展开
-
《python爬虫练习》之b站视频下载
前言因为网页B站没有下载视频和缓存视频(手机App有缓存)的功能,所以如果是想下载教学视频我们就需要用到一些第三方工具,讲真的,这真的很不方便,希望阿b能够重视。我们看其他视频可能是一次过,但教学视频可是要重复复习的,没WiFi真的很费流量。爬取任务:下载B站视频 (单个)分析B站进入B站 ,使用f12进入开发者模式进行分析(小试牛刀,这里随便选择比较短的小视频(BV1H54y1y7Uu) )这里有很多MP4文件,我们可以将请求链接复制到新窗口中打开,看看是不是我们所要的..原创 2020-09-26 19:40:47 · 979 阅读 · 0 评论 -
《python爬虫学习》之爬取csdn网站的博主文章列表
前言:上一篇文章,采用爬取接口的方法爬取到的文章数量只有十篇,但我们看到的文章却不止十篇,甚至点刷新之后会不断增加,而且之前的文章还存在,这说明虽然接口一次只传十条数据,但页面会将已接收的数据缓存到本地,增加到页面中,大概是这样。爬取接口的方法比较简单,只要将要传递的参数陈列分析出来,基本都能获取后台返回给前端的数据。不过很多网站的数据是找不到对应接口的,这时候就需要使用其他的方法来爬取数据,例如xPath。这里以csdn博主文章栏目为例子练习。步骤1:进入开发者模式随便找一个比较厉..原创 2020-05-27 16:32:11 · 2992 阅读 · 3 评论 -
《python爬虫学习》之for循环中的try和if效率对比
在爬取b站数据时,因为有些视频没有简介或时长,导致使用xpath提取数据时出现IndexError错误,即abstract = res.xpath('div[@class="r"]/div[@class="v-desc"]/text()')times = res.xpath('div[@class="l"]//span[@class="dur"]/text()')'''这里如果爬取到的数据为空,得到的结果是abstract=[]和times=[]因为这两个列表没有元素,所以使用abstract原创 2020-05-29 15:13:41 · 4769 阅读 · 1 评论 -
《python爬虫练习》之根据BV号下载b站视频(单个)
上一篇文章简简单单的爬取了某个B站视频,这次在上一次的基础上,增加了爬取输入的BV号对应的视频。上一篇里我们对网站进行分析,发现视频链接基本都存储在window.__playinfo__中,所以我们的目标也很明确。我们需要等号后面的数据,而这个window参数又在script标签中,所以我们可以很轻而易举的写出正则表达式\<script\>window\.__playinfo__=(.*?)\</script\> # 需要注意的是有些字符要加’\‘进行反...原创 2020-09-28 16:13:21 · 2250 阅读 · 0 评论 -
《python爬虫学习》之爬取b站的完结动画列表
前言继接口爬取和网页页面爬取两个练习后,闲着无聊我也四处去找一些合法网站练手,而这次想要爬取的网站是集鬼畜、二次元、学习等元素于一身的b站中的完结动画。网站地址:https://www.bilibili.com/v/anime/finish/#/废话不多说,开始我们的爬取。步骤1:进入开发者模式通过分析,可以知道我们要爬取的数据没有对应的接口文件,这就说明我们只能通过爬取网页的方法进行。经过分析,我们可以得出我们想要的数据的路径为div[@class=” vd-list-cn原创 2020-05-28 22:56:40 · 1459 阅读 · 0 评论 -
《python爬虫学习》之爬取csdn网站的python模块发布文章的数据
前言:最近开始学习python开发,python爬虫早就在一年前就有接触过,不过很少用,害怕自己会忘记,所以在学习python开发的时间里,也会写一些爬虫相关的文章,记录一下自己的学习历程。虽然是温故以前的知识,不过如果跟以前一样先学爬豆瓣、虎扑这些爬虫常客,感觉没什么意义,所以另辟新路,爬取csdn,不过这里从简单的来,先爬取一些网站接口就返回出来的数据。写爬虫的第一步,先分析欲爬取的网站:步骤1:进入开发者模式进入csdn网站,进入开发者模式,点击XHR将无关文件pass掉,再.原创 2020-05-27 00:32:54 · 423 阅读 · 0 评论