服务器的大体架构
服务器里面有前端代码、中间层和数据库,其中中间层负责数据的处理。用户通过浏览器发出请求后被中间层拿到,向数据库进行请求,同意请求之后向前端进行数据的展示。
爬虫
爬虫中是通过代码直接对服务器发送请求,通过一个变量来接受信息,然后我们对信息进行数据的清洗,得到结果
URL
概念:用于完整的描述互联网上网页和其他资源地址的一种表示方法
要读懂URL地址,
- 协议:http、https、ftp等
- host:服务器的IP地址或者域名,192.168.~
- port:服务器的端口
- path:访问资源的路径
- 参数:一般在?后面写,是发送给服务器的数据部分
- 锚点:记忆阅读,跳转到指定网页的锚点位置
请求方式
get请求:从服务器获取数据,参数都在地址栏显示 (明码请求)
post请求:向服务器传送数据 (参数在请求体当中) 举个例子,翻译网址中将翻译的内容想服务器传递,不会将传递的参数显示在地址栏中
避免使用get请求提交表单,账号密码都在地址栏中暴露,不安全。
重要的两个属性
Cookie和userAgent
Cookie是记录上次浏览的学习,并将账号和密码进行加密
userAgent能识别用户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等信息