网站爬虫(全站爬取)案例以及原理适合新手

最新推荐文章于 2025-10-14 16:07:00 发布

原创

最新推荐文章于 2025-10-14 16:07:00 发布 · 3.2k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

本文介绍了如何使用Python爬虫技术，包括json、requests、multiprocessing等模块，解析并抓取一个未加密网站的电影信息，包括翻页规则和数据解析过程，最后演示了如何通过多线程提高爬取速度。

一、网站介绍

本次案例选用的网站是由崔先生(崔庆才)所维护的网站，今天的案例是也是网站中的一部分。

https://ssr1.scrape.center/

二、基础模块

本次用到的模块有：

1、json

本章会用到json.dump()方法，将数据保存成文本格式，用于数据的保存

2、requests

本章用到的数据请求方法主要采用requests.get()方法来请求

3、multiprocessing

创立多线程池，用于加快爬虫速度

4、urllib

基本不用urllib请求数据，太麻烦。但urljoin来拼接url还是不错的

5、os

系统库，用于创建文件夹

三、网站解析

本次的网站是一个非常基础的没有加密的网站，主要看一下它的数据位置以及翻页规则。

首先我们在电影信息块中可以看到蕴含着一个url后缀

点进电影详情后发现电影详情的url是原url与这个url后缀拼接而成的。

而它的翻页规则也很简单，是在原url的基础上加/page/页数

至此我们完成了对网站结构的解析

四、爬取准备

了解网站的结构后，接下来要进行数据爬取，首先是先得到不同页数的url的文本内容

total_page = 10

#如果网页请求成功则范围网页请求内容
def scrape_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
    except:
        raise

#得到不同页的url
def scrape_index(page):
    page = str(page)
    index_url = base_url+"page/" + page
    return scrape_page(index_url)

for page in range(1,total_page + 1):
    index_html = scrape_index(pa