一、爬虫的概念和作用
1.1 概念:
网络爬虫也叫网络蜘蛛,特指一类自动批量下载网络资源的程序,这是一个比较口语化的定义。更加专业和全面对的定义是:网络爬虫是伪装成客户端与服务端进行数据交互的程序.
1.2 作用
1.2.1 数据采集
大数据时代来临,数据就是核心,数据就是生产力,越来越多的企业开始注重收集用户数据;而爬虫技术是收集数据的—种重要手段。
1.2.2 搜索引擎
百度,谷歌等搜索引擎都是基于爬虫技术。
1.2.3 模拟操作
爬虫也被广泛用于模拟用户操作,测试机器人,灌水机器人等。
二、爬虫原理
伪装成服务端与客户端交互
2.1 网络架构(客户端和服务端)
(1) c/s 即client server客户端服务端
(2) b/s即 browser server浏览器服务端
(3) m/s 即 mobile server移动端服务端
互联网的飞速发展是商业经济推动的。目前几乎所有的商业应用都是基于互联网的,它们一般采用c/s架构b/s架构或者m/s架构