
大数据
Teddy1982
这个作者很懒,什么都没留下…
展开
-
Scrapy之PhantomJS , Selenium动态爬虫
简介很多网页具有动态加载的功能,简单的静态页面爬虫对它就无能为力了。这时候就需要PhantomJS+Selenium两大神器简单点说PhantomJS就是一个没有界面的浏览器,提供了JavaScript接口PhantomJS在linux下的安装先安装依赖包sudo apt-get install build-essential g++ flex bison gperf rub...原创 2019-12-09 06:48:37 · 609 阅读 · 0 评论 -
Scrapy(二) 实战
在Request之间传递参数我们在写爬虫的时候,经常会遇到这种情况,这里举例说明一下,比如爬一个列表页面,首先爬的是列表页pageA,从pageA里获取详细页连接,在链接详细页中需要用到pageA中的数据。这时候如果用传参的方法可以直接把pageA中的数据传递给pageB在爬取完成以后再把信息返回传递多个参数:yield Request(url, meta={'item': i...原创 2019-11-16 19:55:11 · 630 阅读 · 0 评论 -
Scrapy之Splash
最近在做爬虫的项目, 遇到动态由js生成的html因为是动态生成了, Scrapy是抓取不到的. 因为现在网站单纯全部写成静态的html的不是太多了, 抓取动态js生成的html必然是个绕不过去的坎, 所以需要研究下主流是如何处理这个问题的。关于Scrapy如何爬取网页的内容可以参考之前Scrapy入门的文章。比较主流的做法是通过Splash生成的服务, 爬虫程序通过Splash的服务从而抓取...原创 2019-11-16 19:43:26 · 467 阅读 · 0 评论 -
Python基础
python 字符串常用操作方法1、去除空格str.strip():删除字符串两边的指定字符,括号的写入指定字符,默认为空格1 a=' hello '2 b=a.strip()3 print(b)输出:hello2、连接字符串1 +:连接2个字符串 2 >>> a='hello ' 3 >>> b='world'...原创 2019-11-04 06:20:57 · 195 阅读 · 0 评论 -
Scrapy的问题
python scrapy 爬虫ImportError: No module named itemsspider名字和project项目名不相同scrapy爬虫出现Forbidden by robots.txt关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决观察scrapy抓包时的输出就能发现,在请求我们设定的ur...原创 2019-11-03 21:21:31 · 275 阅读 · 0 评论 -
Scrapy(一) 入门
之前大部分的中间件都是在Docker中做的, 感觉Docker的确是牛逼, 隔离环境. 最近做一个爬虫的项目, 用到Scrapy, 最开始没有往Docker方面想, 之后有空需要研究下Docker如何安装Scrapy安装Scrapy是基于Python的爬虫框架, 需要先安装Python, 我的环境是Ubuntu 16.4默认条件下, Ubuntu安装了两个Python, Python2.7...原创 2019-11-03 21:19:02 · 215 阅读 · 0 评论