
python爬虫应用
mykefei
这个作者很懒,什么都没留下…
展开
-
基础篇(6) splash应用
selenium是浏览器测试自动化工具,很容易完成鼠标点击,翻页等动作,确定是一次只能加载一个页面,无法异步渲染页面,也就限制了selenium爬虫的抓取效率。 splash可以实现异步渲染页面,可以同时渲染几个页面。缺点是在页面点击,,模拟登陆方面没有selenium灵活。1、docker安装splashdocker安装splash镜像[ywadmin@wzy_w...原创 2019-07-16 09:21:22 · 1425 阅读 · 0 评论 -
基础篇(7)多线线程+对象实现爬虫
import timeimport randomimport reimport osfrom urllib import requestimport requestsimport threadingfrom lxml import etreefrom queue import Queue # 这个队列是线程队列"""多线程的Queue就是线程安全的,所有我们不用...原创 2019-07-30 14:02:59 · 152 阅读 · 0 评论 -
scrapy篇(1)scrapy入门
【传统爬虫流程】1、scrapy爬虫基本概念【概念说明】(1)Scheduler:是一个调度器;(2)Downloader:下载器;(3)Item Pipeline:数据管道(4)Scarpy Engine:爬虫引擎(5)Downloader Middlewares:下载中间件(6)Spider Middlewares:爬虫中间件【创建一个scr...原创 2019-04-24 14:32:32 · 230 阅读 · 0 评论 -
scrapy篇(2)scrapy中的spider部分
1、spider中的属性和方法在Scrapy框架中的spider创建类时,强制了三个属性和一个方法。1.1、spider属性name = "" :这个爬虫的识别名称,必须是唯一的,在不同的爬虫必须定义不同的名字。 allow_domains = [] 是搜索的域名范围,也就是爬虫的约束区域,规定爬虫只爬取这个域名下的网页,不存在的URL会被忽略。 start_urls = [...原创 2019-05-23 11:11:53 · 1733 阅读 · 1 评论 -
scrapy框架自定义UserAgent/Cookies/代理IP应用
1、scrapy框架自定义UserAgent配置UserAgent需要middlewares.py在文件中配置1.1、自定义UserAgent方法一:class UserAgentDownloadMiddleware(object): """自定义请求头""" USER_AGENTS=[ 'Mozilla/4.0 (compatible; MSIE 8...原创 2019-06-10 12:20:50 · 502 阅读 · 0 评论