
爬虫
Mr丶D
这个作者很懒,什么都没留下…
展开
-
Selenium与chromedriver安转与操作指南
概述通常我们用的是 Selenium+chromedriver获取动态数据:Selenium相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。chromedriver是一个驱动Chrome浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:...原创 2019-03-21 14:57:34 · 1048 阅读 · 1 评论 -
Scrapy框架介绍与安装过程中出现 error: Microsoft Visual C++ 14.0 is required问题的解决
Scrapy框架介绍:写一个爬虫,需要做很多的事情。比如:发送网络请求、数据解析、数据存储、反反爬虫机制(更换ip代理、设置请求头等)、异步请求等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率)。因此真正在公司里,一些上了量的爬虫,都是使用Scrapy框架来解决。Scrapy框架模块功能:...原创 2019-04-03 10:31:29 · 309 阅读 · 0 评论 -
Scrapy-Redis创建分布式爬虫
Scrapy-Redis分布式爬虫组件Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy-Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,使得爬虫可以进行分布式。可以充分的利用资源(多个ip、更多带宽、同步爬取)来提高爬虫的爬行效率。分布式爬虫的优点可以充分利用多台机器的带宽。可以充分利用多台...原创 2019-05-10 10:58:40 · 1724 阅读 · 1 评论 -
使用Fiddler抓包工具抓取服务器数据
在正常开发中,应用总是要和服务器交互,其中不免要分析服务器返回的数据,以及测试接口,我们要借助抓跑工具类帮助。所谓抓包工具,其实就是一个代理, 正常我们访问服务器是直接访问,使用代理后,就是通过代理去访问,而代理会把请求信息和服务器的响应信息抓取下来。 下面介绍使用fiddler在Android中的使用。 首先,需要在电脑上下载并安装fiddler。 fiddler下载地址fiddler的初原创 2017-02-25 01:43:36 · 13420 阅读 · 0 评论 -
爬虫与反爬虫
基本概念爬虫 - 自动获取网站数据的程序,关键是批量的获取反爬虫 - 使用技术手段防止爬虫程序的方法误伤 - 反爬技术将普通用户识别为爬虫,如果误伤过高,效果再好也不能用成本 - 反爬虫需要的人力和机器成本拦截 - 成功拦截爬虫,一般拦截率越高,误伤率越高反爬虫的目的初级爬虫 - 简单粗暴,不管服务器的压力,容易弄挂网站数据保护 -失控的爬虫 - 由于某些情况下,忘记或者无...原创 2019-05-27 11:02:09 · 264 阅读 · 0 评论