爬虫篇之IP被限制的方法

这篇博客记录了在实习期间处理爬虫IP被限制的方法,包括维护IP池、多线程分布式爬虫、使用代理、模拟登陆、更换UserAgent等策略,旨在提高爬虫效率并避免被网站封禁。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一篇技术博客,记录自己渣渣的coding。在互联网公司的实习中,发现有些工作会相互重叠,但每写一次代码,都要重新百度一次,时间效率低下,记录在博客日后好温故而知新。

 

维护自己的IP池,并验证此IP能不能用,保存到csv文件当中。

缺点:由于爬取的是西刺代理IP,每个IP时间有限,很容易过期。

import requests
import re
import time
import random
from bs4 import BeautifulSoup
import pandas as pd
keys = [
'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19',
'Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30',
'Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0',
'Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0',
'M
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值