基本介绍
网络爬虫是模拟客户端(主要是浏览器)发送请求/接收响应,自动抓取互联网信息的程序
- 没有明确的法律法规,尽量不要采集个人信息
- 原则上,只要是客户端能做的事情,爬虫都能做
- 爬虫只能获取客户端所能展示的数据
学习路径
- requests模块非常重要,需要掌握
- selenium可以实现非常简单但能用的爬虫
- 反爬机制
- mongodb只需要知道怎么用mongodb以及怎么与python交互
- scrapy爬虫框架
- appium用于手机的数据采集
爬虫的作用
- 数据采集(用于机器学习舆情监控/数据挖掘)
- 软件测试(自动化测试)虫师博客
- 抢票
- 投票
- 网络安全(短信轰炸,web漏洞扫描)
爬虫的分类
根据被爬网站的数量不同,可分为
- 通用爬虫,如搜索引擎
- 聚焦爬虫,专门抓取某一类网站
根据是否以获取数据为目的,可分为
- 功能性爬虫,如投票
- 数据增量爬虫,如招聘信息
根据url地址和对应的页面内容是否改变,数据增量爬虫可分为:
- 基于url地址变化、内容也随之变化的爬虫
- 基于url地址不变,内容变化的爬虫