python中代理IP的获取

在学习爬虫时,我们经常遇到被限制ip的情况如何获取,下面我们介绍如何获取免费ip的方法:
用爬虫爬取其相关数据:
我们采集的ip网址为:

https://www.xicidaili.com/

如图:

在这里插入图片描述

下面分析其代码:

from bs4 import BeautifulSoup
import requests
import random

导入上述模块即可;

1.解析其网页:

def get_ip_list(url, headers):
    web_data = requests.get(url, headers=headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' + tds[2].text)
    return ip_list

2.数据处理

def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

通过上述方法即可随机获得ip地址:
下面给出完整代码:

# IP地址取自国内髙匿代理IP网站:http://www.xicidaili.com/nn/
# 仅仅爬取首页IP地址就足够一般使用

from bs4 import BeautifulSoup
import requests
import random

def get_ip_list(url, headers):
    web_data = requests.get(url, headers=headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' + tds[2].text)
    return ip_list

def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

if __name__ == '__main__':
    url = 'http://www.xicidaili.com/nn/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
    }
    ip_list = get_ip_list(url, headers=headers)
    proxies = get_random_ip(ip_list)
    print(proxies)

输出为:{'http': 'http://218.18.232.26:8080'}
为随机输出,数据不唯一。

将其调用到requests.get(url,timeout=20,proxies={'http': 'http://49.79.130.240:8118'})即可(上述ip为随机)

### 使用Python构建IP池并利用代理服务器获取IP地址 #### 构建IP池的基础概念 为了有效管理大量代理IP,通常会建立一个动态更新的IP池。这个过程涉及几个重要环节:确定可靠的代理IP来源网站[^1];安装必要的依赖库以支持网络请求和数据处理操作[^2]。 #### 实现方案概述 核心在于自动化地从指定站点抓取免费或付费形式提供的HTTP(S)/SOCKS类型的代理服务信息,并经过有效性检测后存入数据库或其他存储结构内待用。对于海外IP代理池而言,重点在于确保所采集的是位于国外的数据中心所提供的出口节点,从而满足特定应用场景下的地理分布需求。 #### 技术选型与工具准备 - **编程语言**: Python - **第三方模块**: - `requests` 或者更高效的异步版本如 `aiohttp` 进行HTTP请求发送; - 数据解析可选用正则表达式(`re`)、BeautifulSoup (`bs4`) 等。 #### 示例代码片段 以下是基于上述描述的一个简化版实现案例: ```python import requests from bs4 import BeautifulSoup as BSoup import sqlite3 import time def get_proxy_list(url='https://www.example.com/free-proxy'): """模拟向目标网址发起GET请求获得页面HTML""" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', } try: response = requests.get(url, headers=headers) soup = BSoup(response.text,'html.parser') proxies = [] table = soup.find('table', attrs={'class':'proxies'}) rows = table.tbody.findAll('tr') for row in rows: cols=row.findAll('td') ip=cols[0].text.strip() port=cols[1].text.strip() proxy_info={ "ip": f"{ip}:{port}", "type":"http" } proxies.append(proxy_info) return proxies except Exception as e: print(f"Error occurred while fetching data from {url}: ", str(e)) return None def verify_proxies(proxies): """验证代理的有效性和响应速度""" valid_proxies = [] test_url = "http://example.org" for pxy in proxies: start_time=time.time() try: resp=requests.get(test_url, timeout=5, proxies={"http":pxy["ip"],"https":pxy["ip"]}) elapsed=(time.time()-start_time)*1000 if resp.status_code==200 and elapsed<2000 : pxy['response_ms']=elapsed valid_proxies.append(pxy) except: continue return valid_proxies if __name__=='__main__': raw_proxies=get_proxy_list() # 获取原始代理列表 verified_proxies=verify_proxies(raw_proxies) # 验证这些代理是否可用 conn = sqlite3.connect(':memory:') # 创建内存中的SQLite连接对象 cursor = conn.cursor() create_table_query=''' CREATE TABLE IF NOT EXISTS ProxyPool ( id INTEGER PRIMARY KEY AUTOINCREMENT, ip TEXT UNIQUE NOT NULL, type TEXT DEFAULT 'http', latency REAL CHECK(latency>0), last_checked TIMESTAMP DEFAULT CURRENT_TIMESTAMP ); ''' insert_data_query="INSERT INTO ProxyPool(ip,type,latency,last_checked)\ VALUES(:ip,:type,:latency,CURRENT_TIMESTAMP)" cursor.execute(create_table_query)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值