
scrapy
Jiede1
专注与数据挖掘和人工智能
Github: https://github.com/Jiede1
展开
-
scrapy在Request之间传递参数
我们在写爬虫的时候,经常会遇到这种情况,这里举例说明一下,比如爬一个新闻页面,首先爬的是新闻列表页pageA,从pageA里获取新闻详细页连接,然后爬新闻详情页pageB,新闻详情页pageB里有一个关于这个新闻的解说,在另一个页面pageC。这时候如果用传参的方法可以直接在爬取完成一条新闻的整个信息以后再把信息返回。 说明: 1、爬取列表信息的方法funcA 2、爬取新闻详情信息的f...转载 2018-04-01 14:26:46 · 999 阅读 · 0 评论 -
Python多线程与多线程中join()的用法
Python多线程与多进程中join()方法的效果是相同的。下面仅以多线程为例:首先需要明确几个概念:知识点一: 当一个进程启动之后,会默认产生一个主线程,因为线程是程序执行流的最小单元,当设置多线程时,主线程会创建多个子线程,在python中,默认情况下(其实就是setDaemon(False)),主线程执行完自己的任务以后,就退出了,此时子线程会继续执行自己的任务,直到自己的任务...转载 2018-04-14 13:22:23 · 14150 阅读 · 5 评论 -
建立爬虫代理ip池
在爬取网站信息的过程中,有些网站为了防止爬虫,可能会限制每个ip的访问速度或访问次数。对于限制访问速度的情况,我们可以通过time.sleep进行短暂休眠后再次爬取。对于限制ip访问次数的时候我们需要通过代理ip轮换去访问目标网址。所以建立并维护好一个有效的代理ip池也是爬虫的一个准备工作。网上提供免费代理ip的网址很多,下面我们以西刺网站为例来建立一个有效的代理ip池。项目流程:第一...转载 2018-04-11 23:32:48 · 870 阅读 · 0 评论 -
python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了python2.X 有这些库名可用: urllib, urllib2, urllib3, httplib, httplib2, requestspython3.X 有这些库名可用: urllib, urllib3, httplib2, requests两者都有的urllib3和requests, 它们不是标准...转载 2018-04-25 13:48:24 · 2157 阅读 · 0 评论