爬虫、服务器的原理

服务器的大体架构

服务器里面有前端代码、中间层和数据库,其中中间层负责数据的处理。用户通过浏览器发出请求后被中间层拿到,向数据库进行请求,同意请求之后向前端进行数据的展示。

爬虫

爬虫中是通过代码直接对服务器发送请求,通过一个变量来接受信息,然后我们对信息进行数据的清洗,得到结果

URL

概念:用于完整的描述互联网上网页和其他资源地址的一种表示方法
要读懂URL地址,

  1. 协议:http、https、ftp等
  2. host:服务器的IP地址或者域名,192.168.~
  3. port:服务器的端口
  4. path:访问资源的路径
  5. 参数:一般在?后面写,是发送给服务器的数据部分
  6. 锚点:记忆阅读,跳转到指定网页的锚点位置

请求方式

get请求:从服务器获取数据,参数都在地址栏显示 (明码请求)

post请求:向服务器传送数据 (参数在请求体当中) 举个例子,翻译网址中将翻译的内容想服务器传递,不会将传递的参数显示在地址栏中

避免使用get请求提交表单,账号密码都在地址栏中暴露,不安全。

重要的两个属性

Cookie和userAgent

Cookie是记录上次浏览的学习,并将账号和密码进行加密
userAgent能识别用户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值