
web
初识-CV
梦想总是和我擦肩而过。
展开
-
Status Code:状态码
应状态码表示服务器的响应状态,如200代表服务器正常响应,404代表页面未找到,500代表服务器内部发生错误。在爬虫中,我们可以根据状态码来判断服务器响应状态,如状态码为200,则证明成功返回数据,再进行进一步的处理,否则直接忽略。100继续请求者应当继续提出请求。服务器已收到请求的一部分,正在等待其余部分101切换协议请求者已要求服务器切换协议,服务器已确认并准备切换...原创 2018-09-16 17:56:19 · 20297 阅读 · 0 评论 -
CSS选择器的语法规则
.class.intro选择class=”intro”的所有节点idfirstname选择id=”firstname”的所有节点**选择所有节点elementp选择所有p节点element,elementdiv,p选择所有div节点和所有p节点element elementdiv p选择div节点内部的所有p节点ele...原创 2018-09-16 22:23:57 · 2950 阅读 · 0 评论 -
各浏览器User-Agent用户代理字符串整理
一、基础知识篇:HttpHeader之User-AgentUserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑...原创 2018-09-20 18:01:52 · 5253 阅读 · 1 评论 -
lxml中etree.HTML()和etree.tostring()用法
from lxml import etreetext = '''<div> <ul> <li class="item-0"><a href=&原创 2018-09-20 20:03:30 · 68162 阅读 · 10 评论