1.什么是http协议?
http协议为超文本传输协议,通过浏览器和服务器进行数据交互,进行文本图片视频等传输的规定
2.http和https的区别?
- http是明文传输,数据未加密,安全性差;https经过加密,安全性高
- 用https需要申请证书,收费;http免费
- http的响应速度更快
- 两者 的端口不一样。http为80,https为443
- https更耗费服务器资源
3.什么是爬虫,有哪些分类?
爬虫是按照一定规则,自动抓取网络信息的程序或者脚本。
分类:
爬虫分为通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,累计式网络爬虫,深层网络爬虫
4.数据爬取的步骤有哪些?
获取网站数据->数据储存->数据处理->数据利用
通过网站的url及伪造header来获取数据
将数据存入本地临时数据库(可以是txt文件之类的)
因为数据驳杂无章,所以需要我们进行筛选来获取自己需要的数据
htmls = BeautifulSoup(html.text,"html.parser") name = htmls.select("#content > div > div.article")
用自己获取到的数据做一些例如模型之类的东西
5.如何审查页面元素?
ctrl+shift+i快捷键打开开发者工具
6.什么是cookie?
类型为“小型文本文件”,是某些网站为了辨别用户身份,进行跟踪而储存在用户本地终端上的数据(通常经过加密),由用户客户端计算机暂时或永久保存的信息。
当header请求不成功时,可以试着在header字典里加上cookie及值
7、get方法和post方法的区别?
- GET产生一个TCP数据包;POST产生两个TCP数据包;
对于GET方式的请求,浏览器会把http header和data一并发送出去,服务器响应200(返回数据)
对于POST,浏览器先发送header,服务器响应100 continue,浏览器再发送data,服务器响应200 ok(返回数据)。 - GET在浏览器回退时是无害的,而POST会再次提交请求
- GET请求参数会被完整保留在浏览器历史记录里,而POST中的参数不会被保留
- GET请求只能进行url编码,而POST支持多种编码方式
- GET比POST更不安全,因为参数直接暴露在URL上,所以不能用来传递敏感信息
8.常见的状态码有哪些
2XX——表明请求被正常处理了
1、200 OK:请求已正常处理。
2、204 No Content:请求处理成功,但没有任何资源可以返回给客户端,一般在只需要从客户端往服务器发送信息,而对客户端不需要发送新信息内容的情况下使用。
3、206 Partial Content:是对资源某一部分的请求,该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的GET请求。响应报文中包含由Content-Range指定范围的实体内容。
3XX——表明浏览器需要执行某些特殊的处理以正确处理请求
4、301 Moved Permanently:资源的uri已更新,你也更新下你的书签引用吧。永久性重定向,请求的资源已经被分配了新的URI,以后应使用资源现在所指的URI。
5、302 Found:资源的URI已临时定位到其他位置了,姑且算你已经知道了这个情况了。临时性重定向。和301相似,但302代表的资源不是永久性移动,只是临时性性质的。换句话说,已移动的资源对应的URI将来还有可能发生改变。
6、303 See Other:资源的URI已更新,你是否能临时按新的URI访问。该状态码表示由于请求对应的资源存在着另一个URL,应使用GET方法定向获取请求的资源。303状态码和302状态码有着相同的功能,但303状态码明确表示客户端应当采用GET方法获取资源,这点与302状态码有区别。
当301,302,303响应状态码返回时,几乎所有的浏览器都会把POST改成GET,并删除请求报文内的主体,之后请求会自动再次发送。
7、304 Not Modified:资源已找到,但未符合条件请求。该状态码表示客户端发送附带条件的请求时(采用GET方法的请求报文中包含If-Match,If-Modified-Since,If-None-Match,If-Range,If-Unmodified-Since中任一首部)服务端允许请求访问资源,但因发生请求未满足条件的情况后,直接返回304.。
8、307 Temporary Redirect:临时重定向。与302有相同的含义。
4XX——表明客户端是发生错误的原因所在。
9、400 Bad Request:服务器端无法理解客户端发送的请求,请求报文中可能存在语法错误。
10、401 Unauthorized:该状态码表示发送的请求需要有通过HTTP认证(BASIC认证,DIGEST认证)的认证信息。
11、403 Forbidden:不允许访问那个资源。该状态码表明对请求资源的访问被服务器拒绝了。(权限,未授权IP等)
12、404 Not Found:服务器上没有请求的资源。路径错误等。
5XX——服务器本身发生错误
13、500 Internal Server Error:貌似内部资源出故障了。该状态码表明服务器端在执行请求时发生了错误。也有可能是web应用存在bug或某些临时故障。
14、503 Service Unavailable:抱歉,我现在正在忙着。该状态码表明服务器暂时处于超负载或正在停机维护,现在无法处理请求。
————————————————
版权声明:本文为优快云博主「Sara2018」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/qq_35689573/article/details/82120851