使用代理ip进行反反爬虫——爬取句子迷网站，获取小说龙族经典句子

最新推荐文章于 2024-12-12 11:54:18 发布

原创最新推荐文章于 2024-12-12 11:54:18 发布 · 794 阅读

0 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

4 篇文章

订阅专栏

在爬取句子迷网站获取《龙族》小说经典句子的过程中，遇到了频繁的IP封锁。通过尝试免费和付费代理IP，如阿布云，解决403错误。然而，免费代理IP效果不佳，付费阿布云虽有效，但受到速率限制。最终，使用阿布云的http隧道动态版完成部分页面的爬取，但由于多线程受限和chunked编码问题，导致部分页面未抓取。项目源码和结果已分享，欢迎star支持。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个爬虫实践做了好久了，不定期更新，遭遇了反爬虫，记录一下反反爬过程。

爬取不到一会就会被封ip，网站返回403,换个ip就好了，但一样会被封，来不及爬取所有句子。
参照网上免费代理ip的方式
不过这个方法爬去下来的proxy拿来访问别的网站可行，但是访问句子迷就403了，估计没有多少个可用的。

在此引用代码，感谢作者。

import requests
import os
from bs4 import BeautifulSoup

headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'}
url = 'http://www.xicidaili.com/nn/1'
s = requests.get(url,headers = headers)
soup = BeautifulSoup(s.text,'lxml')
ips = soup.select('#ip_list tr')
fp = open('host.txt','w')
for i in ips:
    try:
        ipp = i.select('td')
        ip = ipp[1].text
        host = ipp[2].text
        fp.write(ip)
        fp.write('\t')
        fp.write(host)
        fp.write('\n')
    except Exception as e :
        print ('no ip !')
fp.close()


url = 'https://www.github.com'
fp = open('host.txt','r')
ips = fp.readlines()
proxys = list()
for p in ips:
    ip =p.strip('\n').split('\t')
    proxy = 'http:\\' +  ip[0] + ':' + ip[1]
    proxies = {'proxy':proxy}
    proxys.append(proxies)
for pro in proxys:
    try :
        s = requests.get(url,proxies = pro)
        print (s)
    except Exception as e:
        print (e)

另一种实现方式，自己加了可用性测试，效果也不好。来源

def get_ip_list(url, headers):
		web_data = requests.get(url, headers=headers)
		soup = BeautifulSoup(web_data.text, 'lxml')
		ips = soup.find_all('tr')
		ip_list = []
		for i in range(1, len(ips)):
			ip_info = ips[i]
			tds = ip_info.find_all('td')
			ip_list.append(tds[1].text + ':' + tds[2].text)
		print(ip_list)
		print("\n")
		#可用性测试
		new_ip_list=[]
		for ip in ip_list:
			try:
				req=requests.get('https://www.baidu.com',proxies={'proxy':'http://'+ip})
				new_ip_list.append(ip)
				# print("ok")
			except Exception as e:
				print(e)
		print(new_ip_list)
		return new_ip_list
#获取代理ip列表
 headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
  }
ipList=get_ip_list('http://www.xicidaili.com/nn/1',headers=headers)

def get_random_proxies(ipList):
		proxy_list = []
		for ip in ipList:
			proxy_list.append('http://' + ip)
		proxy_ip = random.choice(proxy_list)
		proxies = {'https': proxy_ip}
		return proxies
......

使用付费代理阿布云，不用自己搭建ip池，还有免费测试机会，不过会限制每秒请求数。（不知道是不是新注册用户的原因）
阿布云http隧道动态版，每次请求返回一个随机ip，正是我想要的。这一篇博客讲的很详细了。
我使用的就是免费测试的机会，毕竟只是几个页面（qiong)。
结果就是不能使用多线程，会限制请求数。

最后由于chunked编码问题异常，直接跳过的页面也不是很多，还能接受，暂时先这样吧。至于里面一些需要处理的空格换行和不规则的缩进问题属于数据清洗的范畴了。

欢迎到我的项目地址下载源码和txt文件，给个star。