爬虫
zz60708320
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫基本原理
爬虫基本原理 爬虫:请求网站并提取数据的自动化程序 请求 提取 自动化 爬虫基本流程 1、发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息的,等待服务器响应 2、如果服务器能正常响应,会得到一个Response,Response的内容便是所要获得的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型 3、解析内容 ...原创 2018-12-28 22:24:12 · 239 阅读 · 0 评论 -
正则表达式(re模块)
正则表达式是一个特殊的字符序列,可以用于检测一个字符串是否与我们所设定的字符串相匹配。 re库 1、findall(pattern,string,flags):用来匹配正则表达式 pattern:正则表达式 string:要进行匹配的字符串 flags:匹配的模式 结果为一个所匹配内容的列表 语法规则: ’ \d ':标识匹配单个0-9的数字 ’ \D ':与 \d 相反,匹配数字以外的内容 如果...原创 2018-12-24 22:53:57 · 338 阅读 · 0 评论 -
Urllib库学习笔记
Urllib库详解 Python内置的HTTP请求库 urllib.request:请求模块 urllib.error:异常处理模块 urllib.parse:url解析模块 urllib.robotparser:robot.txt解析模块 内置函数 请求 1、发送请求 urlopen(url,data=None,[timeout,]*) 注意:data类型需为bytes类型 响应 2、获取响应...原创 2019-01-12 16:47:02 · 200 阅读 · 0 评论
分享