
爬虫
bingoCoder
电子信息(软件工程)学生
展开
-
Xpath用法详细总结
Xpath用法详细总结HTML内容解析网页的源代码是一种结构化的数据,如果仅仅使用正则表达式,那么这种结构化的优势就没有被很好地利用起来。HTML简单介绍<标签名> 文本</标签名><标签名 属性1=“属性1的值” 属性2=“属性2的值”> 显示在网页上的文本</标签名>HTML标签的层级关系就像树形...原创 2020-01-08 11:30:46 · 2331 阅读 · 0 评论 -
python爬虫保存图片和文件
看了一篇博客,是这么保存图片的:照做:src = "https://i0.hdslb.com/bfs/sycp/creative_img/201912/01b2f081d58e49c708c1d32b7b8c20ed.jpg"r = requests.get(src)with open("C://Users//yg//Desktop//bbb.jpg", "wb")as f: ...原创 2020-01-06 09:57:09 · 10908 阅读 · 6 评论 -
常见反爬虫手段及应对策略
网站反爬虫的手段(1)通过User-Agent校验反爬浏览器在发送请求的时候,会附带一部分浏览器及当前系统环境的参数给服务器,服务器会通过User-Agent的值来区分不同的浏览器。(2)通过访问频度反爬普通用户通过浏览器访问网站的速度相对爬虫而言要慢的多,所以不少网站会利用这一点对访问频度设定一个阈值,如果一个IP单位时间内访问频度超过了预设的阈值,将会对该IP做出访问限制...原创 2019-12-30 20:55:57 · 9056 阅读 · 3 评论 -
HTTP的常见状态码种类及举例
HTTP的常见状态码种类: 状态码类型 状态码意义 1XX 表示请求已被接受,需接后续处理。这类响应是临时响应,只包含状态行和某些可选的响应头信息,并以空行结束。 2XX 表示请求已成功被服务器接收、理解并接受。 3XX ...原创 2019-12-30 20:45:19 · 1483 阅读 · 3 评论 -
HTTP主要的请求方法
HTTP的主要请求方法: 请求方法 方法描述 GET 请求指定的页面信息,并返回实体主体。 HEAD 与GET方法一样,都是向服务器发出指定资源的请求。只不过服务器将不传回具体的内容,使用这个方法可以在不必传输全部内容的情况下,就可以获取其中该资源的相关信息(元信息或称...原创 2019-12-30 20:41:53 · 499 阅读 · 2 评论 -
Python爬虫相关库
目前Python有着形形色色的爬虫相关库,按照库的功能,整理如下。 类型 库名 简介 通用 urllib Python内置的HTTP请求库,提供一系列用于操作URL的功能 Requests 基于urllib,采用Apache2 Licens...原创 2019-12-30 20:37:07 · 752 阅读 · 1 评论 -
python使用正则表达式(Regular Expression)超详细
一、导入re库python使用正则表达式要导入re库。import re在re库中。正则表达式通常被用来检索查找、替换那些符合某个模式(规则)的文本。二、使用正则表达式步骤1、寻找规律;2、使用正则符号表示规律;3、提取信息,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。三、正则表达式中常见的基本符号1.点号“.” 一个点号可...原创 2019-12-28 17:58:02 · 18734 阅读 · 4 评论