网络爬虫---HTTP基础(1)

本文详细介绍了HTTP协议的基本原理,包括URL、URI与URN的区别,HTTP与HTTPS的工作机制,以及常见的HTTP请求方法如GET、POST等。此外,还深入探讨了请求头、请求体和响应的相关内容。

目录

1.HTTP基本原理

1.1 URL \ URI \ URN

1.2HTTP和HTTPS

1.3HTTP请求过程

1.3.1GET和POST请求

1.3.2请求头

1.3.3请求体

1.3.4响应


1.HTTP基本原理

1.1 URL \ URI \ URN

URL:统一资源定位符,URI统一资源标志符,URN:统一资源名称

1.2HTTP和HTTPS

超文本,网页的源代码的HTML就称为超文本协议

HTTP:超文本传输​​协议

HTTPS:安全套接字层上的超文本传输​​协议HTTP的安全版本,加入了ssl层,传输的内容都是通过SSL加密的

  •   建立了一个信息安全通达来保证数据传输的安全
  •  确认网站的真实信息,可通过CA机构把那的安全签章来查询

1.3HTTP请求过程

1.3.1GET和POST请求

  • GET请求包含在URL中,而POST一般都是表单请求包含在请求体
  • GET提交的数据最多为1024字节,而POST没有限制
其他请求方法
方法描述
得到请求页面,并返回内容
类似于GET,但会没有响应体,用于获取报头
POST大多用于彪悍或上传文件,数据包含在请求体重
从客户端想服务器发送数据取代指定文档的内容
删除请求服务器删除页面
CONNECTb吧服务器当做跳板,让服务器访问其他页面
OPTIONS允许客户端查看服务器的性能
跟踪回显服务器收到的请求,用于测试和诊断

1.3.2请求头

  • 接受:请求报头域,用于指定客户端可接受数据的类型
  • Accept_Language:指定客户端可接受的语言类型
  • Accept_Encoding:客户端可接受编码
  • 主持人:指定请求的IP和端口号
  • 饼干:辨别用户进行绘画跟踪而存储在用户本地的数据,例如密码登录网址,保存的登录状态
  • 引用者:表示这个请求从哪个页面发过来的
  • 用户代理:是一个特殊的字符串头,用于识别操作系统,浏览器等信息做爬虫加上此信息,可伪装成浏览器
  • 内容类型:互联网媒体类型

1.3.3请求体

承载着POST请求的表单数据,而GET为空。

内容类型和岗位的关系
应用程序/ x-WWW窗体-urlencoded表单数据
nultipart /格式数据表单文件
aoolication / JSON序列化JSON数据
文/ XMLXML数据

1.3.4响应

分为三部分:响应状态码,响应头和响应体

1.响应状态码:https//blog.youkuaiyun.com/ddhsea/article/details/79405996

2.响应头

  •        日期:标识响应产生的时间
  •       最后一次修改:指定响应内容编码
  •       编码内容:指定响应内容的编码
  •      服务器:包含服务器的信息
  •      内容类型:文档类型
  •      设置Cookie:设置cookie时,告诉浏览器需要将此内容放置的cookie中
  •     到期:指定响应的过期时间,用于加载内容的缓存”

3.响应体

 浏览器中点击预览,可以看到源代码,也就是响应体的内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值