代理IP的挖掘与分析,通过真实可用的IP提取分析代理的指纹信息,可以用来作为代理IP分析的指纹特征。在工作中可以用来进行代理IP的查找与分析。
代理指纹提取
既然网上这么多多的代理IP,这些代理IP和端口绝大多数是批量扫描得到的,因此,如果掌握了这些代理的指纹信息,就可以批量扫描代理的IP和端口了。选择其中部分代理的IP进行分析,通过nmap与抓包形式分析其指纹数据。这里随意选择一个代理IP地址:58.252.6.165,其代理端口为9000。对其进行数据分析,通过nmap探测到其9000端口对应的服务为MikroTik http proxy,这些数据应该可以作为代理的指纹。
基于Nmap扫描而来的代理指纹
基于HTTP响应提取的代理指纹
指纹提取思路:
本人的思路是直接提取HTTP响应头部信息,得到的是这样的:
看了一下,数据量有点大,一般情况下web服务类型是通过HTTP响应头部的server字段来返回的,因此代码优化了一下,直接提取出server字段,代码如下:
#coding:utf-8
from requests import *
headers = {
""User-Agent"": ""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0"",
""Accept"": ""*/*"",
""Accept-Language"": ""en-US,en;q=0.5"",
""Accept-Encoding"": ""gzip, deflate"",
for url in open(""proxytest.txt""):
url = url.split('\n')[0]
try:
html = get(url,timeout=3,headers=headers)
html = html.headers['server']
except Exception as e:
pass
f = open('./proxyanalysis.txt','a')
print(url,html,file=f)
爬取了一段时间,共采集到14000个左右的有效响应,得到数据
对数据进行提取、分析整理出如下代理的指纹信息(HTTP响应头部的server字段):
上述代理指纹数据个人感觉有些不太适合,如Microsoft-IIS、PCSERVER、Apache。这些代理指纹可能需要结合其他指纹信息。
另外,在网上也找了一些代理服务器,有兴趣的可以收集一下以下代理服务器的指纹信息:
MicrosoftProxy,Microsoft ISA,WinProxy、WinGate、winRoute、SyGate、CCProxy、SuperProxy
以上就是有关代理IP指纹提取的部分,如果大家有更好的思路可以进行分享。
本文探讨如何从代理IP中提取指纹信息,用于代理IP的查找与分析。通过nmap扫描和HTTP响应头部信息,获取如MikroTik http proxy等服务标识,以及HTTP响应头部的server字段。提取的数据包括14000个有效响应,并指出某些常见的服务器类型可能需要结合其他信息来判断。同时列举了一些代理服务器的指纹,如MicrosoftProxy和CCProxy等,邀请读者分享更多思路。
9740

被折叠的 条评论
为什么被折叠?



