
爬虫
在下小天n
强者为王!
展开
-
python爬虫6—高性能异步爬虫
如果有多个URL等待我们爬取,我们通常是一次只能爬取一个,爬取效率低,异步爬虫可以提高爬取效率,可以一次多多个URL同时同时发起请求异步爬虫方式:一、多线程、多进程(不建议):可以为爬取阻塞(多个URL等待爬取)单独开启线程或进程,多个爬取URL异步执行(不能开启无限多个)二、线程池、进程池:可以降低系统对进程或者线程创建和消除的频率,从而降低系统的开销,池中进程或线程的数量是有上限的一、单线程串行爬取用时间延时模拟爬取每个网址的耗时时间。原创 2024-02-03 22:19:16 · 3505 阅读 · 0 评论 -
python爬虫5
1.selenium交互。无页面浏览器速度更快。原创 2024-02-03 21:49:17 · 406 阅读 · 0 评论 -
python爬虫4
【代码】python爬虫4。原创 2024-02-02 22:32:57 · 735 阅读 · 0 评论 -
python爬虫3
静态cookie可视绕过登录的限制。1.异常处理,使代码更加健壮。快代理是一个代理平台。原创 2024-02-01 18:23:31 · 2185 阅读 · 0 评论 -
python爬虫2
1.table 是表格,tr是行,td是列 ul li是无序列标签用的较多,ol li是有序列标签。请求对象定制,现在国际统一编码-unicode。2.urllib库的基本使用。原创 2024-01-31 22:10:50 · 1456 阅读 · 0 评论 -
python爬虫概念及介绍
2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息。爬取网页:爬取整个网页 包含了网页中所有得内容。解析数据:将网页中你得到的数据 进行解析。进行爬取网页,获取有用信息。难点:爬虫和反爬虫之间的博弈。:通过一个程序,根据。原创 2024-01-31 18:59:33 · 1287 阅读 · 0 评论