
爬虫
三尺秋水一点飞鸿
这个作者很懒,什么都没留下…
展开
-
scrapy 框架的工作流程
scrapy 框架的工作流程:1,首先spider将需要发送请求的url 经scapyengin(引擎)交给scheduler(调度器)2,调度器(排队入队)处理后,经引擎,Downloadermiddlewares(可选,主要有user-agent,proxy代理)交给downloader3,downloader向互联网发送请求,并接收下载相应(response),将响应(respo...原创 2019-01-02 20:46:16 · 1314 阅读 · 0 评论 -
分别阐述进程、线程、协程的区别和联系
进程:一个运行的程序(代码)就是一个进程,没有运行的代码叫做程序,进程是系统资源分配的最小单位,进程拥有自己独立的内容空间,所以进程间数据不共享,开销大。线程:调度执行的自小单位,也叫执行路径,不能独立存在,依赖进程存在一个进程至少有一个有一个线程,叫做主线程,而多个线程共享内容(数据共享,共享全局变量),从而极大的提高了程序的运行效率。协程:是一种用户态的轻量级线程,协成的调度完全是由用...原创 2019-01-02 20:48:14 · 789 阅读 · 0 评论 -
Selenium 在爬虫中的应用
1,什么是 Selenium(浏览器自动化测试框架)Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很...原创 2019-01-02 20:50:04 · 386 阅读 · 0 评论 -
爬虫中urllib库和函数
urllib库是python中自带模拟浏览器发送请求的一个库。主要用的有 urllib.request urllib.parse 这两个包及其函数。encode() 字符串转化成二进制 如果()里不写参数,默认是utf-8,写的话就是gbkdecode() 二进制转化成字符串 如果()里不写参数,默认是utf-8,写的话就是gbkresponse 的方法:read() 读取相应...原创 2019-01-02 20:52:00 · 200 阅读 · 0 评论 -
写爬虫的思路
高内聚低耦合是写程序的大标准下载爬虫1,下载download-url(限制流量,requests随机IP,随机User-Agent)2,存储save—url(存入mongocache)3,生成url列表使用正则表达式抽取网址控制网址的下载深度检测网址是否下载过使用队列进行广度优先搜索的下载随机IP:抓取代理网站校验ip...原创 2019-01-02 20:53:19 · 393 阅读 · 0 评论 -
scrapy中pipleline的主要作用?
1,清理HTML数据。2,验证爬取数据,检查爬取字段。3,查重并丢弃重复内容。4,将爬取结果保存到数据库简单的说就是:在scrapy的Item pipeline组件中有两个典型的作用,一个是数据清洗和去重,第二个是将爬取的数据保存到文件或者数据库中。...原创 2019-01-02 20:56:09 · 395 阅读 · 0 评论