今天早上登录我的虚拟机,发现速度慢得出奇。每次运行命令,都要等好一段时间才能看到结果。就如 cat 一个文件的内容这种命令,都要等好一会儿。查看CPU使用率、内存使用率,都很正常。但查看网络连接的时候,发现有好多人连到我的3128端口。
熟悉代理服务器的朋友们知道,3128是squid的默认端口。之前我在虚拟机上配了一个squid,本来是自己用的,因为没有设用户名密码,这两天被别人扫出来,作为公共的代理被用了。于是我停掉squid服务,果然,一下子虚拟机的速度就回复正常了。
但是问题来了,是谁在用我的代理呢?
其实猜也才能猜到,一定是那些代理提供商扫出了我的机器,然后把我的代理提供给他们的用户。我拿我的IP去百度了一下,果然发现被一些代理提供商收录了。
进一步深入思考一下,代理提供商是怎么扫到我的代理的呢?
扫代理的原理其实很简单,就是扫描一个网络中的服务器,扫出那些启用代理服务的机器,测试它们是哪种类型的代理(透明代理、匿名代理还是高匿代理),然后代理提供商将这些代理提供给它的客户。
这么想想,其实做一个代理提供商也不是很难。那这样,我们不是自己也可以扫描代理,把资源卖给有需要的客户了?
顺着上面的思路,我整理了一下自己搭建这样一个服务涉及的几个步骤,列了几个关键点。
扫描代理服务器
扫端口我们可以用 nmap 这个工具。nmap 是一个网络扫描的工具,它可以用来扫描对方服务器启用了哪些端口、哪些服务,服务器是否在线,以及猜测服务器可能运行的操作系统。
我们针对一台机器运行 nmap 命令,可以扫出这个机器启用了哪些端口(服务),比如
$ nmap 49.51.193.128
Starting Nmap 7.01 ( https://nmap.org ) at 2019-03-09 20:32 CST
Nmap scan report for 49.51.193.128
Host is up (0.18s latency).
Not shown: 995 closed ports
PORT STATE SERVICE
22/tcp open ssh
25/tcp filtered smtp
111/tcp open rpcbind
445/tcp filtered microsoft-ds
1080/tcp open socks
Nmap done: 1 IP address (1 host up) scanned in 27.34 seconds
要扫出一个网段中的代理服务器,我们可以针对一个网段作扫描,如下
$ nmap 49.51.193.0/24
上面的命令会扫出所有在 49.51.193.0/24这个网段中有哪些在线的机器,每台机器上启用了哪些服务。
检测代理类型
扫出来代理服务器后,我们可以对这些代理服务器做测试,看看它们是什么类型的代理。
代理基本上分成这三种类型:
- 透明代理
- 匿名代理
- 高匿代理
通过字面意思,大致能猜到这三种代理的区别。简单的说,透明代理就是用了之后,对方服务器很清楚的知道你是谁,你来自哪个IP。匿名代理用了之后,对方没法知道你是谁,但是知道你用了代理。而高匿代理比匿名代理隐藏性更高,对方不仅不知道你是谁,也不知道你用了代理。
三者在技术层面的区别,主要在于HTTP请求头的内容不同
透明代理
REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Your IP
匿名代理
REMOTE_ADDR = proxy IP
HTTP_VIA = proxy IP
HTTP_X_FORWARDED_FOR = proxy IP
高匿代理
REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined
检测代理类型的方法也非常简单,只需要自己搭建一个web服务器,在上面跑一个web程序。客户端通过代理向web服务器发起请求,web程序打印出请求头,通过分析请求头的内容就可以知道这个代理是哪种类型的。
下面是我用 Flask 写了一个例子,大致是这么个意思
import json
from flask import Flask, request
app = Flask(__name__)
@app.route('/')
def hello():
header = {}
if "REMOTE_ADDR" in request.headers:
header["REMOTE_ADDR"] = request.headers["REMOTE_ADDR"]
if "HTTP_VIA" in request.headers:
header["HTTP_VIA"] = request.headers["HTTP_VIA"]
if "HTTP_X_FORWARDED_FOR" in request.headers:
header["HTTP_X_FORWARDED_FOR"] = request.headers["HTTP_X_FORWARDED_FOR"]
return json.dumps(header)
if __name__ == "__main__":
app.run(host="0.0.0.0", port=8080)
运行这个程序,当我们通过代理访问这个web服务,它就会返回代理请求头的信息,我们可以据此判断代理是透明、匿名还是高匿代理。
维护代理池
好,有了代理和代理的类型,我们可以将他们做成一个代理池,提供一个接口给客户,让他们通过接口来获取可用的代理。
当然这些扫出来的代理有效时间长短不一,有的代理也许可以用很久,有的代理可能一会儿时间就失效了。我们需要保证代理池中的代理是有效的,可以定期的去检查代理的有效性,把失效的从列表中去除,把新的有效的加入进来。
当我们做出了这样一个接口后,我们可以把这个接口打包成服务卖给客户,比如按照调用次数收费或者按月收费。
市面上,对于代理池的需求还是很大的,主要是爬虫用户,有些公司也需要爬取竞争对手网站的数据来做分析。用代理池可以避免短时间内请求次数太多而被封掉的情况,当然对于公司来说,除了这方面因素,也想隐藏自己的IP来源,不让竞争对手发现自己的意图。
以上是一个赚钱项目的思路,分享给大家。
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

三、精品Python学习书籍
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

四、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

五、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、Python练习题
检查学习结果。

七、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至优快云官方,朋友如果需要可以直接微信扫描下方优快云官方认证二维码免费领取【保证100%免费】。

文章讲述了作者发现虚拟机运行缓慢,发现3128端口被用于Squid代理服务,被他人滥用。停用Squid服务后,速度恢复正常。作者探讨了代理服务器的扫描原理,如何检测代理类型,并提出了建立代理池的思路,分享了使用nmap扫描端口和编写Flask应用检测代理类型的方法。
1万+

被折叠的 条评论
为什么被折叠?



