爬虫代理IP池实现
1. 代码目标
因为需要进行一个大规模的爬取,具体是爬取全国地级以上城市的实时天气,历史某天到某天的天气,未来30天的天气,为了防止IP被封,需要使用代理IP进行爬取,而找了半天也没有找到好用的可以获取代理IP的库,所以就自己写了一个。流程大概是从免费代理IP 网站爬取IP,加入到IP池,并维护这个IP 池,在使用别的爬虫时,导入这个库,就可以使用代理IP爬取,适用于大规模爬虫。
2. 选取一个免费代理IP的网站
3. F12查看网页结构
可以定位到 我们需要的IP地址和端口号在class=“clearfix proxies” 的 tr 标签中
4. 编写代码
导入库
# -*- coding: utf-8 -*-
import os
import time
import urllib.request
from bs4 import BeautifulSoup as BS
import requests
<