从零到上手：用LLM打造会思考、能自愈的数据抓取

最新推荐文章于 2025-12-04 22:41:02 发布

原创最新推荐文章于 2025-12-04 22:41:02 发布 · 271 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#LLM #数据抓取 #招聘信息 #网站结构 #数据分析 #爬虫代理 #代理IP

爬虫代理同时被 3 个专栏收录

378 篇文章

订阅专栏

代理IP

259 篇文章

订阅专栏

python

258 篇文章

订阅专栏

一、先聊点轻松的：抓取到底是干嘛的？

很多人第一次听到“抓取”两个字，脑海里往往跳出一只在网页上爬来爬去的虫子。其实它并没有那么玄乎，它更像是一个非常勤奋的小助理：

你让它去某个网页，帮你把公开的信息记下来，它就会像不知疲倦的小搬运工一样，一条条搬回来，然后规整排好。

比如你在找工作，要看岗位名称、职位描述、地点、薪资，一个页面两三个还好，几十个、几百个、几千个呢？
你不可能一条条复制吧。

抓取能帮你自动完成这件事，而且速度快得惊人。

但这只是最基础的能力。现在抓取有了一个新玩法：让大模型（LLM）充当前端的“智慧大脑”。它不光能理解页面内容，还能在网站结构改变时自动推断字段、自动修补逻辑。

过去需要人工维护的部分，现在可以逐步交给模型处理。

二、换个方式理解：网站像商场，LLM 是你的智能导购

想象你走进一个巨大的商场，想找运动鞋区域。

传统方式是：你自己到处找，走错楼层、绕远路，甚至商场布局一改，你又得重新摸索。

如果你带着一个智能导购，情况完全不同。
它能读懂所有指示牌，能理解商场结构，就算某个卖场换了位置，它也能立即推断出来，甚至会规划另一条更方便的路线。

这和 LLM 在抓取里的作用非常像。

网站结构变了，它能看懂文字语义，重新判断字段位置。
字段突然没了，它会从内容里找线索补上。
抓取报错，它能告诉你哪一步坏了，还能生成一个修好的版本。

以前你要自己亲自修，现在它像一个随身的技术伙伴。

三、LLM 在抓取里能够帮你做哪些事情？

总结起来，有三大能力。

1. 字段语义推断：结构变了也不慌

招聘网站经常会调整页面结构。昨天字段叫 title，今天可能叫 job_name，明天变成岗位.标题。

传统抓取会直接崩。

LLM 的强大之处在于它不靠字段名，它靠语言理解。
它能从文本里分析出：

哪段是岗位名称
哪段是职位描述
哪条看起来是薪资
哪个像是工作地点

就像你第一次去一个新商场，也能一眼判断哪里是餐饮区一样。

2. 异常自动修复：抓取不再“动不动就挂掉”

网站稍微改一点点，小抓取就容易报错。比如：

XPath 找不到
HTML 标签换了
字段缺失
API 参数变化

传统方式只能人工修。

LLM 能自动找问题、自动修复，并且给出新的代码片段。例如：

你这个定位方式已经匹配不到内容了，我建议改成下面这段。
这个字段今天的格式变了，我尝试根据语义帮你重新整理。
你这里报错是因为结构变化，我已经重写了新的抓取逻辑。

就像多了一个随叫随到的资深工程师。

3. 自动分类整理：数据再多也不会乱

抓回来的招聘信息通常包含很多字段，LLM 可以自动拆分整理成你想要的形式，比如：

基本信息（岗位名、简介）
薪资相关信息
地理位置相关信息
关键词标签（技能要求、行业属性）

不用你写规则，它能自动判断。

四、上手实战：用代理 + LLM + Python 抓招聘信息（简单易懂）

下面给你一个非常入门的示例：

使用亿牛云的代理 IP
模拟抓取公开岗位信息
让 LLM 进行字段推断
自动进行分类存储

代码注释非常详细，不论你是学生、产品经理还是技术新人都能读懂。

Python 代码示例（含代理 + 中文注释）

import requests
import json
from pprint import pprint

# ===============================
# 1. 配置代理（使用亿牛云爬虫代理 www.16yun.cn）
# ===============================
proxy_host = "proxy.16yun.com"   # 示例域名
proxy_port = "12345"                # 示例端口
proxy_user = "your_username"        # 你的代理用户名
proxy_pass = "your_password"        # 你的代理密码

# 拼接代理地址
proxies = {
    "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
    "https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
}

# ===============================
# 2. 设置请求头，伪装浏览器行为
# ===============================
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
}

# ===============================
# 3. 请求岗位信息接口（示例）
# 实战中可替换真实招聘平台公开 API
# ===============================
url = "https://api.example.com/jobs"  # 示例 API

response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
raw_data = response.json()

# ===============================
# 4. 模拟 LLM：根据语义推断字段
# 实战可使用 GPT API 替代
# ===============================
def llm_parse_job(job_item):
    """
    简易版 LLM 解析器：根据字段意义自动做推断
    """
    title = job_item.get("title") or job_item.get("name") or "未知岗位"
    desc = job_item.get("desc") or job_item.get("description", "暂无描述")
    location = job_item.get("city") or job_item.get("location", "未知地点")
    salary = job_item.get("salary") or "面议"

    return {
        "job_title": title,
        "job_desc": desc,
        "job_location": location,
        "job_salary": salary,
    }

# ===============================
# 5. 准备分类存储结构
# ===============================
result = {
    "basic_info": [],
    "salary_info": [],
    "location_info": [],
}

# ===============================
# 6. 处理所有岗位数据
# ===============================
for job in raw_data.get("jobs", []):
    parsed = llm_parse_job(job)
    
    # 分类存储到不同的结构
    result["basic_info"].append({
        "title": parsed["job_title"],
        "desc": parsed["job_desc"]
    })
    result["salary_info"].append({
        "title": parsed["job_title"],
        "salary": parsed["job_salary"]
    })
    result["location_info"].append({
        "title": parsed["job_title"],
        "location": parsed["job_location"]
    })

# ===============================
# 7. 打印结果
# ===============================
pprint(result)