
爬虫
Jason-Lai
世界既不黑也不白,而是一道精致的灰
展开
-
gevent协程池+selenium采集电影网页信息
gevent协程池+selenium采集电影信息数据, 源码实测原创 2023-05-19 11:10:20 · 311 阅读 · 0 评论 -
认识代理服务器
代理服务器 1代理的原理: 代理服务器可以理解为信息中转站,设置代理之后,我们的请求不是直接发送给web服务器,而是先发送给代理服务器。返回的响应也是先给代理,代理在给我们。 2.代理的作用与功能: 1、突破自身IP 访问限制, ...原创 2019-09-25 21:10:42 · 320 阅读 · 0 评论 -
爬虫爬取方法分析与反爬虫策略
爬虫(Spider),反爬虫(Anti-Spider)前言:网络爬虫(Spider或Crawler),顾名思义,就是在互联网上爬行的虫子,那么这只虫子为什么要在网上爬行呢?很简单:收集信息。在互联网时代,谁掌握了信息谁就把握了主动权。一,爬虫部分一些简单建议:(1...原创 2019-09-29 20:28:40 · 613 阅读 · 0 评论 -
认识selenium+phantomjs爬取大多数网站数据基本原理及应用
1,前言:为什么selenium+phantomjs可以获取大多数网站数据?原因:正常requests模块得到的响应内容全部是js代码,因为很多网站得到的响应内容全部是js代码,没有页面数据,无法通过xpath等一下提取数据的方法获取数据。而selenium+phantomjs可以做到,获取页面数据之后,运行响应中的js代码,来完整的获取到想要数据。2,认识selenium及phant...原创 2019-09-29 21:16:30 · 330 阅读 · 0 评论