1.爬虫的实际例子:
- 搜索引擎(百度、谷歌等)
- 伯乐在线
- 慧慧购物助手
2.什么是爬虫:爬虫是一个模拟人类请求网站的行为的程序,自动请求网页,获取数据,清洗数据,保存数据库。
3.通用爬虫和聚焦爬虫
- 通用爬虫:就是讲互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
- 聚焦爬虫:是一种面向需求的网络爬虫,会对需求进行筛选,不是全部内容下载下来。
4.准备工具:
- python 3.x
- pycharm
- 虚拟环境
5.http协议和https协议:
HTTP:协议用的是80端口
HTTPs:协议用的是443端口,是HTTP协议的加密版本
6.URL详解:
7.常用的请求方法:
- get
- post
8.请求头常见的参数:
9.常见的状态码:
- 200:状态正常
- 301:永久重定向,例如www.jingdong.com重定向到www.jd.com
- 302:临时重定向
- 400:页面不存在
- 403:权限不够
- 500:服务器代码出现问题
10.抓包工具
- Chrome浏览器