
python爬虫
竹里清风,竹外尘
人生路上没有后悔
展开
-
requests库爬取拉勾网,session()实现cookie共享,以及list index out of range错误解决
遇到了许多问题,最终在一次次尝试下终于成功。 一开始没有没有意识到拉勾网的cookie在变化,总是不能正常爬取。查资料发现session可以共享信息,这才爬取到了一点正常信息。 爬取一半出现list index out of range,也发现错误的网页每次也不相同,猜测拉勾网后台数据在变化,返回了一个空的列表,使用if else能够继续爬取但同时也丢失了几条数据(大佬指点指点)。 impo...原创 2019-08-05 11:29:55 · 712 阅读 · 1 评论 -
scrapy crawlspider爬取小程序社区教程文章
这里主要给出spider中的代码 wxjcspider.py import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from wxjc.items import WxjcItem class WxjcspiderSpider(Crawl...原创 2019-08-07 17:47:55 · 167 阅读 · 0 评论 -
scrapy爬取汽车之家保时捷911高清图片,使用imagespipeline下载
昨天自己搞了一个下午加晚上,真的是心力憔悴。主要就是不知道imagespipeline怎么使用,问题在代码中有解释. 在settings.py中设置 ITEM_PIPELINES = { #'car_bsj.pipelines.CarBsjPipeline': 300, 'car_bsj.pipelines.CARBSJImagesPipeline': 1 } #这里是储存文件的文...原创 2019-08-10 09:41:05 · 369 阅读 · 0 评论 -
python+mysql的安装与使用
安装请查看 https://blog.youkuaiyun.com/Charonmomo/article/details/98440968 我是根据这个来安装的 python+MySQL的使用语法 import pymysql #数据库连接 db = pymysql.connect( host='localhost', port= 3306, user = 'root', p...原创 2019-08-11 12:01:49 · 169 阅读 · 0 评论 -
scrapy crawlspider异步爬取简书网文章并存入MySQL中
今天写个爬虫爬取简书网上的文章,简书网也是厉害,大部分都是ajax的,连‘阅读更多‘也是ajax的,我本来想用selenium的,结果连个点击的地方也没有,也是幸好每个详情页面下面有一些不是ajax的文章,才能爬到文章 spider.py from scrapy.linkextractors import LinkExtractor from scrapy.spiders import Crawl...原创 2019-08-12 21:30:19 · 388 阅读 · 0 评论 -
python爬虫多线程爬虫斗图啦,一起来斗图吧
我前面也写过一个多线程爬虫爬取斗图,但我后面看了一下我感觉好像还是有点问题,所以我今天又重新写了这个爬虫。 如果不是要求速度的话还是用一下time.sleep()吧,我刚刚爬的时候好像是被封了,用浏览器也打不开斗图啦网站,过了几分钟才能继续访问,这个还是要注意一下。 我本来是想试一下代理ip的,但免费的ip真的是不行,付费的又不想出这个 钱,想想还是算了。 import requests,time...原创 2019-09-04 20:37:51 · 453 阅读 · 0 评论