keven2840
愿自己温柔且有力量。
展开
-
第四章数据的存储之JSON
JSON文件存储原创 2022-06-08 21:39:43 · 756 阅读 · 0 评论 -
第四章数据的存储之TXT文本
PYTHON数据的存储之TXT文本原创 2022-06-08 21:37:23 · 323 阅读 · 0 评论 -
第三章网页数据的解析提取之BeautifulSoup
1.Beautiful Soup的简介Beautiful Soup是Python的一个HTML或XML的解析库。用它可以方便地从网页中提取数据,其官方解释如下:Beautiful Soup提供一些简单、Python式的函数来处理导航、搜索、修改分析树等功能。2.解析器Beautiful Soup在解析时是依赖解析器的,它除了支持Python标准库中的HTML解析器,还支持一些第三方解析器。如LXML解析器有解析HTML和XML的功能,而且速度快、容错能力强。使用时只需在初始化Beau..原创 2022-04-11 21:58:28 · 809 阅读 · 0 评论 -
第三章网页数据的解析提取之XPath
XPath即XML路径语言,用来在XML文档中查找信息,同样适用于HTML文档的搜索。1、XPath概览XPath的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外它还提供了100多个内奸函数,用于字符串、数值、时间的匹配以及节点、序列的处理等。2、XPath常用规则 表达式 描述 nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点原创 2022-03-26 23:54:55 · 1285 阅读 · 0 评论 -
第二章基本库的使用之基础爬虫案例实战
需要爬取的链接为https://ssr1.scrape.center/,这个网站里面包含一些电影信息,要完成的目标有:*利用requests爬取这个站点每一页的电影列表,顺着列表再爬取每个电影的详情页;*用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、剧情简介等内容;*把以上爬取的内容保存为JSON文本文件;*使用多进程实现爬取的加速。首先要定义一些基础的变量,并引入一些必要的库:import requestsimport loggingimport refrom原创 2022-03-26 23:50:54 · 938 阅读 · 0 评论 -
第二章基本库的使用之httpx
对于强制使用HTTP2.0/协议访问的网站,urllib和requests是无法爬取数据的,因为它们只支持HTTP1.1,不支持HTTP2.0,这时要使用httpx。1、示例https://spa16.scrape.center/就是强制使用HTTP/2.0访问的一个网站,这个网站用requests是无法爬取的,例:import requestsurl = 'https://spa16.scrape.center/'re = requests.get(url)print(re.text)原创 2022-03-26 23:48:56 · 743 阅读 · 0 评论 -
第二章基本库的使用之正则表达式
正则表达式用来实现字符串的检索、替换、匹配和验证。实例引入https://tool.oschina.net/regex/,该网站可用于常用正则表达式的匹配。例如:匹配中文字符:[\u4e00-\u9fa5]匹配URL的正则表达式:[a-zA-z]+://[^\s]*匹配18位身份证号:^(\d{6})(\d{4})(\d{2})(\d{2})(\d{3})([0-9]|X)$其中a-z代表任意的小写字母,\s代表任意空白字符,*代表匹配前面的任意多个字符,一串正则表达式就是多个匹配规则原创 2022-01-06 23:20:49 · 238 阅读 · 0 评论 -
第二章基本库的使用之requests的使用
1、准备工作首先要确保安装好requests库,如果尚未安装,可以使用pip3安装:pip3 install requests2、实例引入urllib库中的urlopen方法实际上是以GET方式请求网页,requests库中相应的方法就是get方法,例:import requestsr = requests.get('https://www.baidu.com')print(type(r))print(r.status_code)print(type(r.text))pri原创 2021-12-29 18:38:48 · 498 阅读 · 0 评论 -
第二章基本库的使用之urllib的使用
第二章爬虫基础之urllib的使用urllib可以实现HTTP请求的发送,还可以把服务器返回的响应转换为python对象。urllib库包含如下4个模块:#request:这是最基本的HTTP请求模块,可以模拟请求的发送。就像在浏览器里输入网址然后按下回车一样,只需要给库方法传入URL以及格外的参数,就可以模拟实现发送请求的过程。#error:异常处理模块。如果出现请求异常,那么我们可以捕获这些异常,然后进行重试或其他操作以保证程序运行不会意外终止。#parse:一个工具模块。提供了许多原创 2021-12-27 19:36:06 · 373 阅读 · 0 评论 -
《Python3网络爬虫开发实战》第一章爬虫基础
持续更新崔庆才老师的新书《Python3网络爬虫开发实战(第二版)》的学习笔记,包含书中源码。原创 2021-12-13 18:05:43 · 810 阅读 · 0 评论