1、爬虫介绍
1.1、什么是互联网爬虫
- 通过一个程序,根据url进行爬取网页,获取游泳信息
- 通过程序模拟浏览器,去向服务器发起请求,获取响应信息
1.2、爬虫核心
- 爬取网页:爬取整个网页,包含了网页中所有内容
- 解析数据:将网页中得到的数据进行解析
- 难点:爬虫和反爬虫之间的博弈
1.3、爬虫用途
- 数据分析/人工数据集
- 社交软件冷启动
- 舆情监控
- 竞争对手监控
1.4、爬虫分类
1.4.1 通用爬虫
- 实例
百度、360、google、sougo
等搜索引擎
- 功能
- 访问网页->抓取数据
**注意:**通用爬虫不是我们关注的重点。
1.4.2 聚焦爬虫
- 功能
- 根据需求,实现爬虫程序,抓取需要的数据
- 设计思路