爬虫原理概略

爬虫原理

爬虫可以分为四步
  1. 发送请求、接收响应
  2. 解析数据
  3. 保存数据
发送请求、接收响应
  • Request
    1. GET/POST
      • GET
        可粗略理解为:请求参数在请求地址上
      • POST
        请求参数不在请求地址上
    2. 请求URL
    3. 请求头,如USER-AGENT等
    4. 请求体,如POST的表单数据
  • Response
    1. 响应状态码,如200成功,404丢失,5xx服务器错误
    2. 响应头,如Cookie
    3. 响应体,数据
解析数据(包括网页、视频、图片)
  • 直接解析
  • json解析
  • 正则表达式
  • BeautifulSoup
  • PyQuery
  • XPath
保存数据
  • 文本
  • 关系型数据库
  • 非关系型数据库(Key-Value形式)
    • MongDB
    • Redis
  • 二进制文件(图片)
javascript渲染
  • 分析Ajax请求
  • Selenium/WebDriver
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值