
Python爬虫
文章平均质量分 67
Python爬虫
ww0peo
这个作者很懒,什么都没留下…
展开
-
【Python爬虫】Selenium篇②——三大等待
强制等待 # 参数为等待的时间,单位为秒 time.sleep(1) 强制等待是不需要借助selenium中的函数实现的,其实就在之前一篇的示例中演示的,通过time.sleep()函数实现程序的wait操作。这个等待是python基础库中就有的函数。 缺点: 过于死板,而且耗费时间过多 优点: 编写简单,强制性的等待可能有其他用途 隐式等待 # 参数为等待的最大时间,单位为秒 driver.implicitly_wait(10) 对获取的浏览器驱动进行配置,配置其等待的最大时间 缺点: 必须原创 2021-07-02 11:06:22 · 467 阅读 · 2 评论 -
【Python爬虫】Selenium篇①——安装和介绍
Selenium是一个自动化测试工具,支持多种浏览器。它采用Javascript单元测试工具JSUnit为核心,模拟真实用户操作,包括浏览页面、点击链接、输入文字、提交表单、触发鼠标事件等等,并且能够对页面结果进行种种验证。也就是说,只要在测试用例中把预期的用户行为与结果都描述出来,我们就得到了一个可以自动化运行的功能测试套件。(Selenium的核心是Javascript写的,他和浏览器进行通信,把测试用例的信息发送给浏览器执行,从而达到自动化测试的目的) ...原创 2021-07-02 11:06:04 · 339 阅读 · 1 评论 -
【Python爬虫】Scrapy篇④——起点中文网书架列表爬取
111原创 2021-07-02 10:43:55 · 612 阅读 · 0 评论 -
【Python爬虫】Scrapy篇③——Scrapy Shell、settings文件和Pipeline回调函数
111原创 2021-07-02 10:43:32 · 354 阅读 · 0 评论 -
【Python爬虫】Scrapy篇②——Pipeline、日志模块、请求和Item
Pipeline pipeline是作为scrapy中保存数据或者处理数据的组件,也基本是爬虫最后一个步骤。 如果想要使用pipeline,首先需要开启pipeline,这个是在settings.py文件中配置的,基本的配置如下,其中键名代表的是pipeline的位置,具体指的是mySpider文件夹下(这个是固定的根目录)pipelines文件中的MyspiderPipeline类,值就代表的是pipeline的执行顺序,值越小越先执行。所以这里是可以配置多个pipeline的,下面的MyspiderPi原创 2021-07-02 10:43:06 · 857 阅读 · 0 评论 -
【Python爬虫】Scrapy篇①——简介、安装和快速开始
Scrapy简介 scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需实现少量的代码,就能够快速的抓取。 scrapy使用了twisted异步网络框架,可以加快我们的下载速度。 安装scrapy 通过下面的命令安装scrapy pip install Scrapy 安装过程中出现的常见问题: 《Microsoft Visual C++ 14.0 is required解决方法》 《You are using pip version 20.0.2, however versio原创 2021-07-02 10:42:50 · 146 阅读 · 0 评论