爬虫就是获取网页并提取和保存信息的自动化程序
一.HTTP
1.HTTP基本原理
URI和URL
URI (Uniform Resource Identifier) 统一资源标志符
URL(Universal Resource Locator) 统一资源定位符
URL是URI的子集, URI还包括⼀一个⼦子类URN (Universal Resource Name) 统⼀一资源名称,URN
只命名资源不不指定如何定位资源。
超文本 (hypertext)
网页源代码,html代码
查看源代码工具和方法
HTTP和HTTPS
HTTP (Hyper Text Transfer Protocol)
超文本传输协议
HTTPS (Hyper Text Transfer Protocol over Secure Socket Layer)
HTTP加入SSL层,传输内容通过SSL加密
安全通道保证数据传输安全
确认网站真实性
2.HTTP请求过程
用浏览器器开发者⼯工具观察网络请求过程
请求
请求方法 (Request Method)
GET请求的参数直接在URL⾥里里,最多只有1024字节
POST请求数据⼀一般通过表单提交,不