问题起源: 最近在研究Python爬虫, 爬虫自然少不了代理, 因此自己动手整理了一个代理池, 用的Free的代理, 因此用了多线程加快了爬取速度, 在这里大体记录一下.
技术栈: Python、Django、Celery
大体思路: 找到免费的代理网站,然后获取一些Free的代理地址,然后验证有效性,保存到数据库,暂时还没有分布式爬虫的需求,因此对于代理数量需求不大,因此本项目对于大数据支持并不完善(以后有需要在加^0^)。
借鉴了网上大神们写的代码, 使用Django进行网络请求的处理.
主要函数
class FreeProxy(object):
"""
:param proxy
:param [kwargs]
return yield
"""