爬虫原理
爬虫可以分为四步
- 发送请求、接收响应
- 解析数据
- 保存数据
发送请求、接收响应
- Request
- GET/POST
- GET
可粗略理解为:请求参数在请求地址上 - POST
请求参数不在请求地址上
- GET
- 请求URL
- 请求头,如USER-AGENT等
- 请求体,如POST的表单数据
- GET/POST
- Response
- 响应状态码,如200成功,404丢失,5xx服务器错误
- 响应头,如Cookie
- 响应体,数据
解析数据(包括网页、视频、图片)
- 直接解析
- json解析
- 正则表达式
- BeautifulSoup
- PyQuery
- XPath
保存数据
- 文本
- 关系型数据库
- 非关系型数据库(Key-Value形式)
- MongDB
- Redis
- 二进制文件(图片)
javascript渲染
- 分析Ajax请求
- Selenium/WebDriver