爬虫基本流程
- 发起请求
通过HTTP库向目标服务器发送Request,Request内可以包含额外的headers信息。 - 获取响应内容
如果服务器正常响应,会返回Response, 里面包含的就是该页面的内容。 - 解析数据
内容或许是HTML,可以用正则表达式、网页解析库进行解析。
或许是Json,可以直接转换为Json对象解析。 - 保存数据
可以存储为文本,也可以保存至数据库,或其他特定类型文件。
Request和Response
- Request
主机向服务器发送数据请求时的过程叫做HTTP Request - Response
服务器向主机返回数据的过程叫做HTTP Response
Request中包含的内容
- 请求方式
常用的有GET,POST两种类型。
- GET
这种请求方式的参数都包含在网址里面。 - POST
这种请求方式的参数包含在请求体中的form data中。相对安全。
- GET
- URL
请求的网络链接。 - 请求头
包含请求时的头部信息。如:User-Agent、Host、Cookies等。
- User-Agent
指定浏览器。
- User-Agent
- 请求体
GET请求下一般情况请求体中不会包含重要信息。
POST请求中包含重要信息。
Response中包含的内容
- 响应状态
Status Code:200
即状态码,一般200表示响应成功。 - 响应头