Python爬虫基础教程（90）Python Selenium&PhantomJS实战：获取代理之爬虫代码：Python爬虫黑科技：用Selenium和PhantomJS抓代理IP，不想试试吗？-优快云博客

听说爬虫高手都在用这个，轻松搞定那些“反爬虫”网站！

爬虫基础：为什么需要代理IP？

咱们先来说说，为什么做爬虫的都需要代理IP？

简单啊，当你频繁访问同一个网站时，服务器会检测到异常，轻则限制访问，重则直接封掉你的IP地址。这时候，代理IP就成了救命稻草——通过代理服务器转发请求，隐藏真实IP，让目标网站以为每次请求都来自不同的用户。

但是，优质代理IP不是那么容易获取的。虽然网上有很多免费代理IP网站，但这些IP质量参差不齐，大部分可能都是无效的。这就需要我们自己去验证、去筛选。

这就是今天要分享的重点：如何用Python的Selenium库配合PhantomJS浏览器，自动抓取并验证代理IP的可用性。

环境配置：准备工作不能少

在开始编写爬虫之前，我们得先把环境搭建好。就像做饭前得先备好食材和厨具一样。

必需软件和环境：

Python 3.5+（因为我们要使用async/await语法）
Redis数据库（用于存储代理IP）
PhantomJS或无头Chrome
必要的Python库

安装所需库：

打开你的命令行，输入以下命令安装必要的Python库：

pip install selenium aiohttp bs4 lxml requests

如果你想要更高效的异步处理，还可以安装asyncio库（Python 3.5以上自带）。

为什么选择Selenium+PhantomJS？

可能有同学会问，为什么不用普通的Requests库加上正则表达式来抓取呢？

问得好！这里有一个关键问题：很多现代网站大量使用JavaScript动态生成内容，如果只是简单下载HTML源码，很可能抓不到我们需要的数据。而Selenium配合PhantomJS可以模拟真实浏览器行为，执行JavaScript，获取完全渲染后的页面。

PhantomJS是一个无界面的WebKit浏览器，它虽然看不到界面，但功能齐全。相比于Chrome或Firefox，它更轻量，适合爬虫任务。

不过需要注意的是，PhantomJS官方已停止维护，但现在仍然可以正常工作。替代方案是使用无头Chrome或无头Firefox，使用方法类似。

核心代码解析：爬虫如何工作

让我们来看一个代理爬虫的核心代码，这个爬虫会从多个代理网站收集免费代理IP，验证它们的有效性，然后存入Redis数据库。

爬虫规则定义

首先，我们需要定义针对不同代理网站的爬取规则。这里用元类和基类来管理规则类：

class CrawlerRuleBase(object, metaclass=CrawlerRuleMeta):
    start_url = None
    page_count = 0
    urls_format = None
    next_page_xpath = None
    ip_xpath = None
    port_xpath = None
    filters = None
    filters_xpath = None
    use_phantomjs = False
    phantomjs_load_flag = None

每个代理网站都有自己的页面结构和翻页方式，所以我们需要为每个网站创建一个规则类。例如，对于某个代理网站，规则类可能是这样的：

class ExampleProxyRule(CrawlerRuleBase):
    __rule_name__ = "example_proxy"
    start_url = "http://www.example-proxy.com/page1"
    page_count = 5
    urls_format = "http://www.example-proxy.com/page{}"
    ip_xpath = "//table[@class='proxy_list']//td[1]"
    port_xpath = "//table[@class='proxy_list']//td[2]"
    filt