Scrapy + 阿布云代理 + 手动自动配置

本文介绍了代理服务器的基本原理,并详细说明如何在Scrapy框架外手动配置阿布云代理,以及如何在Scrapy框架内设置阿布云代理中间件,包括在middlewares.py和settings.py文件中的配置步骤,以实现IP伪装和限制请求速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

代理原理 介绍

代理指的就是代理服务器,英文 叫作 proxy server,它的功能是代理网络用户 去取得网络信 息。形象地说,它是网络信息的中转站(可以直白的理解为中介)。 当我们请求一个网站时, 通常是将请求给 Web服务器, Web 服务器再把响应传回给我们 。 如果设置了代理服务器 , 就是在本机和服务器之间搭建了 一个 桥梁,先向代理服务器发出请求,请求会发送给代理服务器,然后由代理服务器发送给 Web 服务器,接着由代理服务器再把 Web 服务器返回的响应转发给本机。 这样我们同样可以正常访问网页,这个过程中 Web 服务器识别出的 IP就不再是我们本机的 IP了,这样就成功实现了 IP伪装,这就是代理的基本原理
常应用于IP访问限制和频繁爬取得网站

手动配置(不使用scrapy框架)

import urllib.request
import random
import urllib.error
import time

# 如果是购买的,通过接口得到数据,然后处理为列表即可
ip_pool = [
    '218.60.8.98:3129',
    '183.129.207.74:14823',
    '114.113.126.82:80',
    '171.38.24.228:8123'
]

while 1:
    # 从ip列表中随机一个代理ip出来
    ip = random.choice(ip_pool)

    url = 'http://www.baidu.com/s?ie=UTF-8&wd=ip'
    proxy = {
        'http': ip
    }
    handler = urllib.request.ProxyHandler(proxies=proxy)
    opener = urllib.request.build_opener(handler)

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleW
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值