这个爬虫实践做了好久了,不定期更新,遭遇了反爬虫,记录一下反反爬过程。
-
爬取不到一会就会被封ip,网站返回403,换个ip就好了,但一样会被封,来不及爬取所有句子。
-
参照网上免费代理ip的方式
不过这个方法爬去下来的proxy拿来访问别的网站可行,但是访问句子迷就403了,估计没有多少个可用的。
在此引用代码,感谢作者。
import requests
import os
from bs4 import BeautifulSoup
headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'}
url = 'http://www.xicidaili.com/nn/1'
s = requests.get(url,headers = headers)
soup = BeautifulSoup(s.text,'lxml')
ips = soup.select('#ip_list tr')
fp = open('host.txt','w')
for i in ips:
try:
ipp = i.select('td')
ip = ipp[1].text
host = ipp[2].text
fp.write(ip)
fp.write('\t')
fp.write(host)
fp.write('\n')
except Exception as e :
print ('no ip !')
fp.close()
url = 'https://www.github.com'
fp = open('host.txt','r')
ips = fp.readlines()
proxys = list()
for p in ips:
ip =p.strip('\n').split('\t')
proxy = 'http:\\' + ip[0] + ':' + ip[1]
proxies = {'proxy':proxy}
proxys.append(proxies)
for pro in proxys:
try :
s = requests.get(url,proxies = pro)
print (s)
except Exception as e:
print (e)
另一种实现方式,自己加了可用性测试,效果也不好。来源
def get_ip_list(url, headers):
web_data = requests.get(url, headers=headers)
soup = BeautifulSoup(web_data.text, 'lxml')
ips = soup.find_all('tr')
ip_list = []
for i in range(1, len(ips)):
ip_info = ips[i]
tds = ip_info.find_all('td')
ip_list.append(tds[1].text + ':' + tds[2].text)
print(ip_list)
print("\n")
#可用性测试
new_ip_list=[]
for ip in ip_list:
try:
req=requests.get('https://www.baidu.com',proxies={'proxy':'http://'+ip})
new_ip_list.append(ip)
# print("ok")
except Exception as e:
print(e)
print(new_ip_list)
return new_ip_list
#获取代理ip列表
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}
ipList=get_ip_list('http://www.xicidaili.com/nn/1',headers=headers)
def get_random_proxies(ipList):
proxy_list = []
for ip in ipList:
proxy_list.append('http://' + ip)
proxy_ip = random.choice(proxy_list)
proxies = {'https': proxy_ip}
return proxies
......
- 使用付费代理阿布云,不用自己搭建ip池,还有免费测试机会,不过会限制每秒请求数。(不知道是不是新注册用户的原因)
阿布云http隧道动态版,每次请求返回一个随机ip,正是我想要的。这一篇博客讲的很详细了。
我使用的就是免费测试的机会,毕竟只是几个页面(qiong)。
结果就是不能使用多线程,会限制请求数。
最后由于chunked编码问题异常,直接跳过的页面也不是很多,还能接受,暂时先这样吧。至于里面一些需要处理的空格换行和不规则的缩进问题属于数据清洗的范畴了。
欢迎到我的项目地址下载源码和txt文件,给个star。