第一篇技术博客,记录自己渣渣的coding。在互联网公司的实习中,发现有些工作会相互重叠,但每写一次代码,都要重新百度一次,时间效率低下,记录在博客日后好温故而知新。
维护自己的IP池,并验证此IP能不能用,保存到csv文件当中。
缺点:由于爬取的是西刺代理IP,每个IP时间有限,很容易过期。
import requests
import re
import time
import random
from bs4 import BeautifulSoup
import pandas as pd
keys = [
'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19',
'Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30',
'Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0',
'Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0',
'M