- 博客(10)
- 收藏
- 关注
原创 python爬虫-Day02
Handler处理器 和 自定义Openeropener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。但是基本的urlopen()方法不支持代理IP、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:1、使用相关的Handler处理器来创建特定功能的处理器对象;2...
2019-01-07 20:34:27
868
原创 python爬虫-Day03
爬取策略 在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略:深度优先遍历策略深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。imp...
2019-01-07 20:32:44
177
原创 python爬虫-Day04
selenium&phantomJS&headless浏览器驱动下载IE11的Webdriver下载: http://dl.pconline.com.cn/download/771640-1.html 链接:https://pan.baidu.com/s/13TTyXGNaG5cpSNdl1k9ksQ 密码:2n9nChrome65.0.3325.146的webdriv...
2019-01-07 20:30:27
295
原创 python爬虫-Day05
多线程在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程!为什么这么说,我们先明确一个概念,全局解释器锁(GIL)什么是GILPython代码的执行由Python虚拟机(解释器)来控制,同时只有一个线程在执行。对Python虚拟机的访问由全局解释器锁(GIL)来控制,正是这个锁能保证同时只有一个线程在运行。为什么要GIL为了线程间数据的一致性和状态同步...
2019-01-07 20:29:37
209
原创 python爬虫-Day06
进程进程的概念python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程。进程的概念: 进程是程序的一次执行过程, 正在进行的一个过程或者说一个任务,而负责执行任务的则是CPU. 进程的生命期: 当操作系统要完成某个任务时,它会创建一个进程。当进程完成任务之后,系统就会撤销这个进程,收回它所占用的资源。从创建到撤销的...
2019-01-07 20:28:13
156
原创 python基础-day5
数据类型 int float str tuple list bool dict set complex pi —>math cmathfloat操作 a = 10.3# 向上取整res = math.ceil(10.2)print(res)# 向下取整print(math.floor(num1))# 保留小数的位数 5不算print(round(num1, 1...
2019-01-07 20:26:35
110
原创 python基础-day4
list for 函数for for 变量 in 集合: 重复执行操作其他语言js java c++:do while怎么解决问题 分治:当我们遇到一个大难题的时候 我们要分析 把他拆解成若干小问题, 按个解决小问题,等所有小问题解决 就整个问题break 关键字 跳出当前循环 注意:多层嵌套 只能跳出当前循环continue 关键字 跳过当次循环,继续...
2019-01-07 20:25:36
150
原创 python基础-day3
list 运算符 控制语句 range方法 包 import random while for运算符 算术运算符 关系运算符 逻辑运算符 赋值运算符 成员运算符 身份运算符 位运算符算术运算符 + : a + b -: a-b *: a * b //: a // b a整除b # 整除 print(a//b) # 取余 ...
2019-01-07 20:24:28
318
原创 python基础-day2
python 编程语言: 解释性 交互性 可拓展的等等 版本:3.6.3 环境变量 python的代码文件 我们以.py结尾写一个: 创建一个python文件 写入print(“hehe”)执行:python python文件需要更好的工具帮我们写代码 IDE pycharm sublime vc++ 6.0 vs2012 Eclipse HBuilder 文...
2019-01-07 20:23:28
138
原创 python基础-day1
python大纲第一阶段(四周 第四周周五考试):python的基础语法第二阶段(四周): 前两周:HTML CSS js 第三周:Linux操作系统 第四周:数据库(MySQL mongoDb redis)第三阶段: Django (三周 前两周知识点 第三周做项目) 可能会有考试 Flask (两周 也有小项目)第四阶段: 爬虫(两周) 数据分析(各种算法)...
2019-01-07 20:21:52
265
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人