
python爬虫
陳兴华²⁰¹⁸
这个作者很懒,什么都没留下…
展开
-
python爬虫-Day06
进程 进程的概念 python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。 进程的概念: 进程是程序的一次执行过程, 正在进行的一个过程或者说一个任务,而负责执行任务的则是CPU. 进程的生命期: 当操作系统要完成某个任务时,它会创建一个进程。当进程完成任务之后,系统就会撤销这个进程,收回它所占用的资源。从创建到撤销的...原创 2019-01-07 20:28:13 · 158 阅读 · 0 评论 -
python爬虫-Day05
多线程 在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程! 为什么这么说,我们先明确一个概念,全局解释器锁(GIL) 什么是GIL Python代码的执行由Python虚拟机(解释器)来控制,同时只有一个线程在执行。对Python虚拟机的访问由全局解释器锁(GIL)来控制,正是这个锁能保证同时只有一个线程在运行。 为什么要GIL 为了线程间数据的一致性和状态同步...原创 2019-01-07 20:29:37 · 212 阅读 · 0 评论 -
python爬虫-Day03
爬取策略 在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略: 深度优先遍历策略 深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。 imp...原创 2019-01-07 20:32:44 · 179 阅读 · 0 评论 -
python爬虫-Day02
Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理IP、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能: 1、使用相关的Handler处理器来创建特定功能的处理器对象; 2...原创 2019-01-07 20:34:27 · 873 阅读 · 0 评论