
爬虫
文章平均质量分 91
python
En^_^Joy
学无止境
展开
-
带Cookies信息操作页面(Selenium)
主要介绍如何获取登入信息,携带登入信息对网页进行一些自动化操作原创 2024-01-28 18:11:00 · 2885 阅读 · 0 评论 -
异步爬虫(高效爬虫)
如果有多个URL等待我们爬取,我们通常是一次只能爬取一个,爬取效率低,异步爬虫可以提高爬取效率,可以一次多多个URL同时同时发起请求异步爬虫方式:一、多线程、多进程(不建议):可以为爬取阻塞(多个URL等待爬取)单独开启线程或进程,多个爬取URL异步执行(不能开启无限多个)二、线程池、进程池:可以降低系统对进程或者线程创建和消除的频率,从而降低系统的开销,池中进程或线程的数量是有上限的。原创 2023-03-12 09:34:34 · 1925 阅读 · 0 评论 -
Scrapy框架(高效爬虫)
Scrapy拥有高性能持久化存储,异步数据下载,高性能数据解析,分布式功能。原创 2023-03-04 20:17:51 · 11894 阅读 · 0 评论 -
selenium模块(自动化)
Selenium是自动化测试工具,可以驱动浏览器执行特定的动作,如单击、下拉等,同时可以获取浏览器当前呈现的源代码,做到可见即可爬,便捷的获取网站中动态加载的数据,便捷实现模拟登录。原创 2023-02-26 20:38:40 · 1996 阅读 · 0 评论 -
requests请求库(爬取)
requests请求爬取库原创 2023-01-02 21:25:54 · 2221 阅读 · 0 评论 -
爬虫解析库(bs4,xpath)
爬虫解析库(bs4,xpath)原创 2021-05-05 23:39:27 · 1740 阅读 · 1 评论