Python爬虫实战：利用代理IP获取招聘网站信息（手把手教程+避坑指南）

最新推荐文章于 2025-11-26 15:40:52 发布

原创最新推荐文章于 2025-11-26 15:40:52 发布 · 672 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #tcp/ip #其他

文章目录

一、为什么要用代理IP？（打工人必备技能！）

各位爬虫er们注意啦！最近帮朋友做职业规划时发现——获取实时招聘数据简直是求职神器啊（偷偷告诉你们，大厂HR都在用这招）！但现实很骨感，很多招聘平台的反爬机制比老板的心还难猜（疯狂封IP警告）！

这里有个真实案例：小王同学用单IP连续爬取某招聘网站，结果半小时就被拉黑名单了（血泪教训）！所以今天必须教会大家：如何用代理IP优雅地薅羊毛！

二、工具准备清单（新手必看！）

工欲善其事必先利其器，这些工具装起来：

Python3.8+（推荐用Anaconda管理环境）
请求库：Requests（基础款）或aiohttp（进阶异步）
解析神器：BeautifulSoup4（小白友好）或PyQuery（jQuery党的福音）
代理IP服务商（自建池或购买，后面细说）
FakeUserAgent库（伪装浏览器必备）

避坑提示：别用免费代理！别用免费代理！别用免费代理！（重要的事情说三遍）推荐使用付费服务，比如某云代理（不是广告！），实测成功率能到85%+

三、实战七步走（附源码片段）

步骤1：分析目标网站结构（开发者工具走起）

按F12打开开发者工具，找到这些关键点：

翻页参数规律（比如page=1）
数据加载方式（静态/动态加载）
反爬机制（Cookie验证？UserAgent检测？）

偷师技巧：在Network面板里找XHR请求，很多网站会把数据放在json里传输！

步骤2：配置代理IP池（核心操作！）

这里给出两种方案：

# 方案A：使用API动态获取代理IP
import requests

def get_proxy():
    proxy_api = "你的代理服务商API地址"
    res = requests.get(proxy_api).json()
    return f"http://{res['ip']}:{res['port']}"

# 方案B：本地代理池维护（适合长期使用）
PROXY_POOL = [
    'http://101.34.202.23:8000',
    'http://112.85.166.98:8000',
    # 此处添加更多IP...
]

步骤3：伪装请求头（反反爬必备！）

from fake_useragent import UserAgent

headers = {
    'User-Agent': UserAgent().random,  # 随机生成UA
    'Referer': 'https://www.zhipin.com/',  # 伪装来源
    'Accept-Encoding': 'gzip, deflate, br'
}

步骤4：实现带代理的请求（重点代码！）

import random
import requests

def get_page(url):
    try:
        proxy = {'http': get_proxy()}  # 或 random.choice(PROXY_POOL)
        response = requests.get(url, 
                              headers=headers,
                              proxies=proxy,
                              timeout=10)
        if response.status_code == 200:
            return response.text
        else:
            print(f"请求失败！状态码：{response.status_code}")
    except Exception as e:
        print(f"发生异常：{str(e)}")
        return None

步骤5：数据解析（BeautifulSoup实战）

假设我们要抓取岗位名称和薪资：

from bs4 import BeautifulSoup

def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    jobs = soup.select('.job-primary')  # 根据实际结构修改
    
    data = []
    for job in jobs:
        title = job.select_one('.job-name').text.strip()
        salary = job.select_one('.red').text
        company = job.select_one('.company-text a').text
        
        data.append({
            'title': title,
            'salary': salary,
            'company': company
        })
    return data

步骤6：异常处理（保命代码！）

代理IP失效自动切换
设置随机请求间隔（0.5-3秒）
捕获所有可能异常（ConnectionError/Timeout/ProxyError等）

步骤7：数据存储（CSV示例）

import csv

def save_to_csv(data, filename='jobs.csv'):
    with open(filename, 'a', newline='', encoding='utf-8-sig') as f:
        writer = csv.DictWriter(f, fieldnames=['title', 'salary', 'company'])
        writer.writerows(data)

四、高级技巧（老司机专属！）

技巧1：IP轮换策略

每10个请求切换IP
根据响应时间自动淘汰慢速代理
失败IP自动加入黑名单（24小时解封）

技巧2：分布式爬虫架构

使用Scrapy-Redis搭建分布式系统，配合Redis维护代理IP池，吞吐量直接翻倍！

技巧3：智能限速算法

import time
from random import uniform

def smart_delay(last_time):
    interval = uniform(1.5, 3.5)  # 随机间隔
    elapsed = time.time() - last_time
    if elapsed < interval:
        time.sleep(interval - elapsed)