
爬虫
Mark Huo
With great power comes great responsibility
展开
-
Scrapy框架
ScrapyScrap的执行流程http://www.cnblogs.com/wupeiqi/articles/5354900.html组件介绍引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)...转载 2019-06-03 22:03:14 · 212 阅读 · 0 评论 -
Scrapy补充
scrapy补充https://www.cnblogs.com/wupeiqi/articles/6229292.html自动限速算法"""17. 自动限速算法 from scrapy.contrib.throttle import AutoThrottle 自动限速设置 1. 获取最小延迟 DOWNLOAD_DELAY 2. 获取最大延迟 AUTOTH...转载 2019-06-03 22:05:00 · 180 阅读 · 0 评论 -
Scrapy setting配置
setting中配置详解BOT_NAME = ‘day96’表示爬虫的名字,他会影响到User-AgentUSER_AGENT = ‘day96 (+http://www.yourdomain.com)’表示发送请求时,请求头中的User-Agent,默认是爬虫的名字,表示我是一个爬虫,也可以自己修改伪造成浏览器 USER_AGENT = 'Mozilla/5.0 (Wi...转载 2019-06-03 22:06:07 · 344 阅读 · 0 评论 -
requests和beautifulSoup4
request库https://blog.youkuaiyun.com/u011815404/article/details/81710392获取cookiecookie_dict = response.cookies.get_dict() # 拿到cookie的字典类型request相信参数介绍https://www.cnblogs.com/wupeiqi/articles/628...转载 2019-06-03 22:07:04 · 297 阅读 · 0 评论 -
高性能爬虫
asynciohttps://www.cnblogs.com/wupeiqi/p/6229292.html单独使用socket,可以实现协程的IO操作(需要字节封装Http)import asyncio@asyncio.coroutinedef fetch_async(host, url='/'): print(host, url) reader, write...转载 2019-06-03 22:08:12 · 276 阅读 · 0 评论 -
Scrapy自定制命令
scrapy自定制命令https://www.cnblogs.com/wupeiqi/articles/6229292.html步骤1.在spiders同级创建任意目录,如:commands2.在其中创建 crawlall.py 文件 (此处文件名就是自定义的命令)这个命令是执行所有的爬虫 from scrapy.commands import ScrapyCommand ...转载 2019-06-03 22:08:57 · 217 阅读 · 0 评论 -
Scrapy报错纪录
1.执行了scrapy crawl命令,但是没有执行parse方法setting中设置 ROBOTSTXT_OBEY = False2.显示中文乱码setting中设置 FEED_EXPORT_ENCODING = ‘utf-8’或者,设置终端输入编码sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘gb180...原创 2019-06-03 22:10:28 · 130 阅读 · 0 评论 -
使用selenium+BeautifulSoup4爬取拉勾网信息
使用selenium爬取拉勾网信息拉钩网的反爬技术做的很好,我尝试了网上的各种解决方案,都不怎么管用,如果直接使用scrapy框架爬取url信息的话,就会因为访问过于频繁而被限制,跳出以下页面:没办法了,只好祭出终极武器,使用selenium完全模仿浏览器的行为。tips:这里是要先按照chromedriver的,使用bing搜索,可以立马搜索到结果,下载chromedriver.exe...原创 2019-06-28 13:27:56 · 877 阅读 · 0 评论