requests + BeautifulSoup 实战：手把手教你写爬虫

最新推荐文章于 2025-10-19 15:39:32 发布

原创最新推荐文章于 2025-10-19 15:39:32 发布 · 864 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#beautifulsoup #爬虫 #智能化测试 #质量效能 #模糊测试 #人工智能 #Python

人工智能同时被 3 个专栏收录

348 篇文章

订阅专栏

质量效能

203 篇文章

订阅专栏

Python

80 篇文章

订阅专栏

在大模型、云计算、数据中台横行的今天，你可能会问：写爬虫是否已经过时？

答案是：恰恰相反，爬虫是数据世界的敲门砖。

在数据驱动、AI泛化的新时代，高质量的数据仍然是训练模型、构建知识图谱、进行数据分析的基础。爬虫不仅是数据获取的捷径，更是理解互联网结构与数据流动规律的绝佳工具。本文将带你深入浅出，从零开始实战一个真实的网页数据爬取案例，从而掌握构建通用型爬虫的关键技术与思想。

一、核心技术栈简介

requests：Python中使用最广泛的 HTTP 请求库，封装简单，语义清晰。
BeautifulSoup：用于解析 HTML/XML 的 Python 库，基于 lxml 或 html.parser，以 Pythonic 的方式提取网页结构信息。

它们结合，构成了最轻量、最实用、最经典的爬虫组合，适合初学者入门，也适合专家进行快速数据获取任务。

二、目标任务：爬取豆瓣电影 Top250

我们以豆瓣电影 Top250 页面为例，目标是获取每部电影的：

电影名称
评分
引言（短评）
详情页链接

三、搭建爬虫的工程思维

一个高质量的爬虫项目，不应只是拼凑代码，而应具备完整的工程结构和鲁棒性思维。

3.1 目录结构推荐

douban_spider/
├── main.py
├── spider.py
├── parser.py
├── utils.py
└── requirements.txt

说明：模块化设计是保证可扩展性与可测试性的关键。

四、实战代码解析：一步步构建高质量爬虫

4.1 请求页面（`spider.py`）

import requests
from utils import get_headers

def fetch_html(url):
    try:
        response = requests.get(url, headers=get_headers(), timeout=10)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        return response.text
    except requests.RequestException as e:
        print(f"请求失败: {e}")
        return None

✅ 启发：加上 timeout 和 异常处理 是保障鲁棒性的重要实践。

4.2 伪装浏览器（`utils.py`）

import random

USER_AGENTS = [
    # 多个User-Agent可以反爬虫
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64)...",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...",
]

def get_headers():
    return {
        "User-Agent": random.choice(USER_AGENTS),
        "Accept-Language": "zh-CN,zh;q=0.9"
    }

✅ 启发：反反爬虫策略的第一步——伪装自己。

4.3 解析页面（`parser.py`）

from bs4 import BeautifulSoup

def parse_movies(html):
    soup = BeautifulSoup(html, 'html.parser')
    movie_list = []
    for item in soup.select('.grid_view li'):
        title = item.select_one('.title').text.strip()
        rating = item.select_one('.rating_num').text.strip()
        quote = item.select_one('.inq')
        quote = quote.text.strip() if quote else ""
        detail_link = item.select_one('a')['href']
        
        movie_list.append({
            'title': title,
            'rating': rating,
            'quote': quote,
            'link': detail_link
        })
    return movie_list

✅ 启发：用 CSS 选择器定位元素，结构清晰，表达精准。

4.4 组织主流程（`main.py`）

from spider import fetch_html
from parser import parse_movies
import time

BASE_URL = "https://movie.douban.com/top250?start={}&filter="

def main():
    all_movies = []
    for start in range(0, 250, 25):
        url = BASE_URL.format(start)
        print(f"正在爬取：{url}")
        html = fetch_html(url)
        if html:
            movies = parse_movies(html)
            all_movies.extend(movies)
        time.sleep(1)  # 模拟人类访问，防止封IP
    print(f"共获取电影：{len(all_movies)} 部")
    for movie in all_movies[:5]:  # 展示前5个
        print(movie)

if __name__ == "__main__":
    main()

五、实战提升建议

5.1 数据持久化

建议将数据写入 csv、json 或 数据库，方便后续分析：

import csv

def save_to_csv(data, filename="douban_top250.csv"):
    with open(filename, 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=['title', 'rating', 'quote', 'link'])
        writer.writeheader()
        writer.writerows(data)

5.2 加入代理池

可集成开源代理池（如 proxy_pool）提高稳定性。

5.3 异步优化

结合 aiohttp + asyncio，提升大规模爬取效率。

六、AI 时代下的爬虫新价值

你可能会想：爬虫还值得学吗？AI不都能自动获取信息了吗？

实际上，AI 的能力依赖优质数据训练，而爬虫是获取数据的第一步。

训练语料获取：自建行业语料库用于微调
数据增强：爬取图文数据用于生成式任务
领域模型构建：构建垂直行业知识图谱的数据支撑

换句话说，爬虫是连接真实世界与人工智能模型之间的桥梁。

七、总结与启发

模块	关键实践	启发思考
requests	超时+异常+伪装UA	网络环境不稳定，必须防御
BeautifulSoup	精准选择器结构	页面结构变化时要弹性处理
工程组织	模块化、可维护性	可重用性决定未来发展空间
AI 结合	从采集到训练闭环	数据即力量，先手为王