
爬虫
Teddy1982
这个作者很懒,什么都没留下…
展开
-
Scrapy反爬虫之521异常
引子最近在爬取一个网站时, 遇到了521错误, 这是一种网站的反爬技术, 浏览器会渲染很多东西,代码爬数据会漏掉浏览器渲染的信息思路可以尝试复制浏览器的cookie信息, 加在请求头中, 但是这样只能获取单个域名的网页。恰巧我需要爬取的网站下面有多个二级域名的网页(二级域名网页的链接可以通过一级域名获取), 复制每个二级域名的cookie来爬取每个二级域名的网页是不太可能的进一步...原创 2019-12-22 13:43:29 · 1849 阅读 · 0 评论 -
Scrapy(二) 实战
在Request之间传递参数我们在写爬虫的时候,经常会遇到这种情况,这里举例说明一下,比如爬一个列表页面,首先爬的是列表页pageA,从pageA里获取详细页连接,在链接详细页中需要用到pageA中的数据。这时候如果用传参的方法可以直接把pageA中的数据传递给pageB在爬取完成以后再把信息返回传递多个参数:yield Request(url, meta={'item': i...原创 2019-11-16 19:55:11 · 630 阅读 · 0 评论 -
Scrapy之PhantomJS , Selenium动态爬虫
简介很多网页具有动态加载的功能,简单的静态页面爬虫对它就无能为力了。这时候就需要PhantomJS+Selenium两大神器简单点说PhantomJS就是一个没有界面的浏览器,提供了JavaScript接口PhantomJS在linux下的安装先安装依赖包sudo apt-get install build-essential g++ flex bison gperf rub...原创 2019-12-09 06:48:37 · 609 阅读 · 0 评论 -
Scrapy的问题
python scrapy 爬虫ImportError: No module named itemsspider名字和project项目名不相同scrapy爬虫出现Forbidden by robots.txt关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决观察scrapy抓包时的输出就能发现,在请求我们设定的ur...原创 2019-11-03 21:21:31 · 275 阅读 · 0 评论 -
Scrapy(一) 入门
之前大部分的中间件都是在Docker中做的, 感觉Docker的确是牛逼, 隔离环境. 最近做一个爬虫的项目, 用到Scrapy, 最开始没有往Docker方面想, 之后有空需要研究下Docker如何安装Scrapy安装Scrapy是基于Python的爬虫框架, 需要先安装Python, 我的环境是Ubuntu 16.4默认条件下, Ubuntu安装了两个Python, Python2.7...原创 2019-11-03 21:19:02 · 215 阅读 · 0 评论