
爬虫
文章平均质量分 80
Python爬虫
指弹代码摄影狗
菜的终日慌张,强者丝毫不虚
展开
-
使用aiohttp异步爬取小说
哈喽,在这个寂寞的下午来看看这篇很水的文章《使用aiohttp爬取小说》 首先,简单说下同步和异步。个人理解蛤,举个例子 同步就是,你去买泡面,买完得等商家算钱,算完钱了,你才能离开店铺。 异步就是,晚上吃个泡面,先烧个水,那么在等水开的时候,就可以撕泡面的包装,酱料包,然后等到水开了泡就是了苦逼单身dog,只有泡面… ...原创 2020-02-28 17:43:19 · 1332 阅读 · 4 评论 -
比较普通爬虫、多线程爬虫、scrapy框架爬虫对小说爬取的花费用时
最近真是闲的无所事事,快要发霉了,于是比较一下,不同爬虫技术在同一台电脑上的爬取同一个网站的同一本小说的花费用时。爬的是一本叫《龙王赘婿》的小说,电脑也是差劲的可以好了,废话不多说了,首先是什么都没有处理的通用爬虫一、通用爬虫import osimport timeimport requestsimport reurl = 'http://www.shuqug...原创 2020-02-28 00:46:28 · 649 阅读 · 0 评论 -
一步一步教你用Python爬虫框架Scrapy下载Pdf文件
哈喽,感谢你在这寂寞的晚上看到这篇寂寞的文章。今天接到朋友的一个需求,下载pdf文件并且用网络上的书名保存。想到下载pdf文件啊,虽然requests也能实现,但是速度还是太慢了,于是乎,Scrapy走起...一、安装 Scrapy 首先,我们在项目里新建一个项目,名字就命名为 spider_pdf。然后,打开File -> Settings -> Proj...原创 2020-02-26 20:48:34 · 5828 阅读 · 3 评论 -
利用selenium+打码工具实现自动识别验证码并登录
哈喽,在这个寂寞的下午,看到同样寂寞的这篇无聊的文章,赏个脸,虽然很low,但别喷。因为太丑,在这个既不能上班又没有女朋友陪伴的寂寞日子了,看看电子书,发现居然要登录,登录就登录吧,还有验证码,只好解决乎~第一步:用户名和密码:得到这个需要登录的url,然后利用selenium的webdriver打开浏览器,并输入信息(为什么用selenium?因为这篇文章写的就是用selenium。...原创 2020-02-24 15:44:22 · 2134 阅读 · 1 评论 -
利用Flask+Scrapy+Vue实现前端输入网址,后端开启爬虫
不知道有没有小伙伴和笔者一样,不喜欢Scrapy里固定网址的方式想从网站上通过输入要爬取的网址点击按钮进行爬取。不管有没有,反正笔者是这样做了一个爬取小说的小东西哈哈哈...废话不多说,开始代码首先呢,咱先写个Vue,Vue很简单就是表单提交,上代码最后的实现效果就是这样接下来就是后端的逻辑了这是我的项目结构之前说是使用Flask...原创 2019-12-05 15:11:19 · 3292 阅读 · 7 评论 -
scrapy+mysql实现小说连载更新
平常看小说总是有更新,网站上百度到的都是增量式爬虫,用scrapy-redis,可是我是mysql啊(我能怎么办,我也很绝望....),于是就搞搞搞,搞了个用mysql+scrapy实现的连载更新首先,在用这个连载之前,mysql数据库里必须有一些小说的信息,比如上次小说A的最新章节,上次小说A的章节数量,小说A的来源网址(来源目录)接来下说正题:一,因为用到了Mysql,所以要关联m...原创 2019-11-28 15:07:40 · 592 阅读 · 0 评论 -
scrapy框架下,爬取小说,解决章节乱序问题(小说封面+章节内容+简介)练手Demo
首先,要感谢 @数学狂魔博客的启发,https://blog.youkuaiyun.com/qq_43391383/article/details/86930106,在他的博客中是采用把标题拆开,做成引导顺序的形式,然后进行同步IO,但我发现,这样的方法并不适用于每一种标题。如,第一章,第二章...这样的就不好拆了,于是我就想到自己加一个id的形式。思路类似于写数据表的时候,我们要给表添加一个自增的id,...原创 2019-10-26 10:30:51 · 5237 阅读 · 4 评论