scrapy 自定义代理

博客内容介绍了如何在Scrapy爬虫项目中,由于自带的代理不可靠,选择自定义代理并配置中间件,通过在settings.py文件中设置DOWNLOADER_MIDDLEWARES来启用自定义的ProxyMiddleware。

自带的代理不好用,可以自定义。

class ProxyMiddleware(object):
        def process_request(self, request, spider):#次函数名不能改
            #代理列表
            PROXIES = [
                {'ip_port': '111.11.228.75:80', 'user_pass': ''},
                {'ip_port': '120.198.243.22:80', 'user_pass': ''},
                {'ip_port': '111.8.60.9:8123', 'user_pass': ''},
                {'ip_port': '101.71.27.120:80', 'user_pass': ''},
                {'ip_port': '122.96.59.104:80', 'user_pass': ''},
                {'ip_port': '122.224.249.122:8088', 'user_pass': ''},
            ]
            proxy = random.choice(PROXIES)#随机选择代理
            if proxy['user_pass'] is not None:#如果代理不需要密码,在meta中添加
                request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])#转为bytes
                encoded_user_pass = base64.encodestring(to_bytes(proxy['user_pass']))#用户名密码用base64加密
                request.headers['Proxy-Authorization'] = to_bytes('Basic ' + encoded_user_pass)#在请求头中加入代理
                print "**************ProxyMiddleware have pass************" + proxy['ip_port']
            else:#代理需要密码
                print "**************ProxyMiddleware no pass************" + proxy['ip_port']
                request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])

最后在settings里配置下,   DOWNLOADER_MIDDLEWARES = {'step8_king.middlewares.ProxyMiddleware': 500,}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值