豆瓣新片排行榜爬虫实战：douban_new_movie_spider项目解析-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42400643/article/details/144101722

简介：该项目是一个基于Scrapy框架的网络爬虫，专门用于从豆瓣网站抓取最新的电影信息并以JSON格式存储。通过简单的命令启动，爬虫自动浏览并抓取豆瓣电影新片排行榜数据，适合于数据分析、监测等任务。项目结构完整，包含设置文件、爬虫代码、物品模型、管道组件和中间件等，是学习和实践网络爬虫技术的好例子。 douban_new_movie_spider:一只蜘蛛从douban.com抓取新电影

1. Scrapy框架应用概述

Scrapy是一个快速、高层次的屏幕抓取和网络爬取框架，用于抓取网站并从页面中提取结构化的数据。作为Python语言编写的开源框架，Scrapy被广泛应用于数据挖掘、信息处理或历史存档等场景。在本章中，我们将从Scrapy的应用背景、技术优势以及安装启动等基础知识入手，为读者提供Scrapy框架的整体认识，为后续章节中进行项目实战打下坚实的理论基础。通过本章的学习，读者将了解到如何使用Scrapy框架进行高效的网络数据抓取，并对如何快速构建Scrapy爬虫项目有一个初步的了解。

2.1 爬虫项目结构解析

2.1.1 理解Scrapy项目结构组成

Scrapy是一个强大的爬虫框架，它采用了模块化设计，使得构建爬虫变得简单而高效。一个典型的Scrapy项目结构包含以下组件：

scrapy.cfg ：项目的配置文件，用于指定项目根目录和项目模块。
items.py ：定义爬取的数据结构。
middlewares.py ：自定义中间件。
pipelines.py ：数据处理的管道。
settings.py ：配置文件，用于调整爬虫的行为。
spiders/ ：存放爬虫文件的目录，每个爬虫文件对应一个爬虫模块。

通过这些组件的相互作用，Scrapy框架能够高效地执行爬取任务，从目标网站抓取数据，经过数据清洗和处理后存储到指定的数据库或文件中。

2.1.2 创建项目及组件初始化

创建一个新的Scrapy项目十分简单，只需要在命令行中输入 scrapy startproject projectname ，其中 projectname 是你自定义的项目名称。这条命令会创建以下目录和文件结构：

scrapy.cfg
projectname/
├── __init__.py
├── items.py
├── middlewares.py
├── pipelines.py
├── settings.py
└── spiders/
    ├── __init__.py

每个组件的初始化和功能是这样定义的：

items.py 定义了爬虫将要抓取的数据结构。例如，如果你想要抓取电影信息，你可以定义一个 MovieItem 类，包含电影名称、导演、上映日期等字段。 python import scrapy class MovieItem(scrapy.Item): title = scrapy.Field() director = scrapy.Field() release_date = scrapy.Field()
pipelines.py 用于定义如何处理抓取到的数据。它可以通过 process_item 方法对数据进行清洗、存储或丢弃。 python class MoviePipeline(object): def process_item(self, item, spider): # 实现数据的存储逻辑 return item
settings.py 是爬虫的全局配置文件，用于设置爬虫行为，比如设置请求头、代理、下载延迟等。 python # 示例配置 USER_AGENT = 'Mozilla/5.0 (compatible; Scrapy/1.0)'
spiders/ 是爬虫文件存放的目录。创建一个爬虫文件 new_movies.py ，并继承 scrapy.Spider 类，定义爬虫的名称、起始URL和解析方法。

python import scrapy from projectname.items import MovieItem class NewMoviesSpider(scrapy.Spider): name = 'new_movies' allowed_domains = ['example.com'] start_urls = ['http://example.com/movies/'] def parse(self, response): # 解析页面并提取数据 pass

初始化项目后，你可以使用 scrapy crawl new_movies 命令开始爬虫任务。了解这些基础组成部分及其功能，是进行Scrapy爬虫开发的第一步。随着我们继续深入实践，将会涉及更复杂的数据处理和存储策略。

3. JSON数据格式存储详解

3.1 爬取数据的存储方式

选择JSON存储的优劣分析

当数据抓取后，我们面临选择存储格式的问题。JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。在数据抓取项目中，使用JSON存储数据具有明显的优势和局限性。

优势包括：

跨平台兼容性 ：JSON格式被广泛应用于不同编程语言中，易于实现不同系统间的数据共享。
结构清晰 ：JSON具有良好的结构，易于理解，数据以键值对的形式存在，便于后期数据处理和分析。
简洁性 ：JSON的格式比XML更轻便简洁，文件体积更小，存储和传输效率更高。
易于使用 ：Python等语言内置了对JSON的支持，无需额外的解析库。

局限性则体现在：

数据类型限制 ：JSON仅支持字符串、数字、布尔、数组和对象五种类型，对于更复杂的数据类型（如日期、二进制文件）需要额外处理。
编码限制 ：JSON格式默认不支持Unicode字符，需要指定编码格式，否则容易出现编码问题。

JSON与Python数据类型的映射关系

在Python中，JSON数据类型与Python内置数据类型之间的映射关系非常直观。JSON字符串、数字和布尔值直接对应于Python的字符串（str）、整数（int）、浮点数（float）和布尔（bool）类型。JSON数组和对象分别对应于Python中的列表（list）和字典（dict）。这种对应关系使得在Python中解析和生成JSON数据变得非常方便。

Python内置的 json 模块提供了将Python对象编码为JSON字符串的功能，反之亦然。例如：

import json

# 将Python字典编码为JSON字符串
python_data = {
    "name": "John",
    "age": 30,
    "is_student": False
}
json_string = json.dumps(python_data)
print(json_string)
# 输出：{"name": "John", "age": 30, "is_student": false}

# 将JSON字符串解码为Python字典
python_data_decoded = json.loads(json_string)
print(python_data_decoded)
# 输出：{'name': 'John', 'age': 30, 'is_student': False}

在使用 json.dumps() 或 json.loads() 方法时，可以通过参数对JSON编码和解码过程进行定制，例如设置缩进使JSON字符串格式化输出。

3.2 实现数据的解析与存储

解析网页数据的方法

在爬虫项目中，网页数据通常通过HTTP响应获取。解析网页数据的过程包括提取所需信息以及忽略无关内容。Scrapy框架提供了多种方式来解析网页，比如使用 Selector 对象，它基于 lxml 库进行HTML/XML文档的解析。

以下是一个使用 Selector 进行数据提取的例子：

from scrapy.selector import Selector

def parse_html(response):
    selector = Selector(response)
    items = selector.xpath('//div[@class="item"]')
    for item in items:
        title = item.xpath('.//h2/text()').get()
        link = item.xpath('.//a/@href').get()
        yield {'title': title, 'link': link}

上述代码中， response 是爬虫返回的HTTP响应对象， xpath 方法用于解析HTML，并定位到含有电影信息的元素，然后提取标题和链接。

编写pipelines.py处理数据存储

数据存储是爬虫项目的关键环节，通常在 pipelines.py 文件中实现数据的存储逻辑。使用Scrapy框架时，每个爬虫返回的数据项会经过一个或多个pipelines，最终被存储到文件、数据库或其他存储系统中。

以下是一个简单的 pipelines.py 实现，它将数据存储为JSON格式：

import json

class JsonWriterPipeline(object):
    def open_spider(self, spider):
        self.file = open('movies.json', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

在这个例子中， open_spider 方法在爬虫启动时被调用，用于打开文件准备写入数据。 process_item 方法在每个数据项被爬取后调用，将数据项转换为JSON字符串并写入文件。 close_spider 方法在爬虫关闭时被调用，关闭文件并完成最后的数据写入操作。

通过使用Scrapy管道，开发者可以灵活地控制数据的去重、验证以及持久化存储，确保爬虫项目的健壮性和数据质量。

4. Python编程语言实现细节

4.1 Python基础语法回顾

Python是一门解释型、高级且面向对象的编程语言。它的设计理念强调代码的可读性和简洁的语法（尤其是使用空格缩进来定义代码块，而不是使用大括号或关键字）。本小节将回顾Python的基础语法元素，为后文深入探讨其在爬虫中的应用奠定基础。

4.1.1 Python变量、表达式和语句

变量是编程语言中用于存储数据值的符号名称。在Python中，变量不需要声明类型，可以直接赋值。

# 变量赋值示例
number = 10
name = "John Doe"

表达式是编程语言中的一个短语，它可以产生一个值，或执行某种操作。Python中的表达式可以包含变量、字面量、运算符和函数调用。

# 表达式示例
result = number + 5  # 这里 'number + 5' 是一个表达式

语句是编程语言中执行动作的基本单元。在Python中，语句通常以换行符结束，或者在代码块中以冒号结尾。

# 语句示例
if number > 5:
    print("Number is greater than 5")

4.1.2 Python函数与模块使用

函数是一组一起执行一个任务的语句块。在Python中，使用 def 关键字定义函数。

# 定义函数示例
def greet(name):
    print("Hello, " + name + "!")

模块是包含Python代码的文件，它们以.py为文件扩展名。导入模块可以使我们使用该模块中的函数、类和其他变量。

# 导入模块示例
import math

# 使用模块中的函数
print(math.sqrt(16))  # 输出：4.0

4.2 Python网络编程基础

4.2.1 Python的网络请求库使用

Python标准库中的 urllib 和第三方库如 requests 提供了一系列用于发送网络请求的工具。

requests 库以其易用性著称：

import requests

response = requests.get("https://api.example.com/data")
print(response.text)  # 输出响应文本

4.2.2 处理HTTP响应内容

HTTP响应通常包含状态码、头部信息以及主体内容。处理这些内容通常需要解析响应的文本、JSON数据或者二进制图像等数据。

# 解析JSON响应示例
data = response.json()
print(data["key"])  # 输出JSON中的key对应的值

4.3 Python在爬虫中的高级应用

4.3.1 多线程和异步请求技术

Python中的 threading 和 asyncio 库用于实现多线程和异步编程。

多线程示例：

import threading

def download_data(url):
    # 模拟下载操作
    pass

threads = [threading.Thread(target=download_data, args=("http://example.com/page1",)),
           threading.Thread(target=download_data, args=("http://example.com/page2",))]

for thread in threads:
    thread.start()
for thread in threads:
    thread.join()

异步请求示例：

import asyncio

async def fetch_data(url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            return await response.text()

async def main():
    html = await fetch_data("http://example.com")
    print(html)

asyncio.run(main())

4.3.2 使用代理和headers规避反爬虫机制

绕过反爬虫策略的一种常见方法是使用代理和定制headers。代理可以隐藏真实的IP地址，而定制headers可以模拟正常浏览器的请求。

proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

session = requests.Session()
session.proxies = proxies
session.headers = headers
response = session.get("https://api.example.com/data")

4.4 Python爬虫中的异常处理

异常处理是爬虫开发中的一个重要方面。Python通过try-except语句来捕获和处理异常，使程序能够在遇到错误时继续运行。

try:
    response = requests.get("https://api.example.com/data")
    response.raise_for_status()  # Raises an HTTPError if the HTTP request returned an unsuccessful status code
except requests.exceptions.HTTPError as errh:
    print ("Http Error:",errh)
except requests.exceptions.ConnectionError as errc:
    print ("Error Connecting:",errc)
except requests.exceptions.Timeout as errt:
    print ("Timeout Error:",errt)
except requests.exceptions.RequestException as err:
    print ("OOps: Something Else",err)

通过这些基础的回顾和高级应用的介绍，下一章节我们将深入了解如何将Python应用到爬虫项目中，并探索如何存储和处理爬取的数据。

5. 爬虫数据处理管道组件深入

在构建一个成熟的爬虫应用时，数据处理管道（Pipeline）是不可或缺的组件。它负责对抓取的数据进行清洗、验证以及持久化存储。一个良好的管道设计可以显著提高数据质量，同时保证爬虫的效率和稳定性。

5.1 理解数据处理管道

5.1.1 管道组件的作用与工作流程

在Scrapy框架中，管道是一个独立的组件，用于处理爬取的数据。每当一个Item被爬虫产生，就会被顺序地送到所有管道组件进行处理。每个管道组件都可以决定这个Item是继续向后流动，还是被丢弃不再处理。

管道组件的主要作用包括：

清洗数据，如去除空值、格式化文本等。
验证数据的有效性。
去除重复的记录。
将清洗后的数据保存到数据库或其他存储系统。

工作流程如下：

爬虫抓取到数据，生成Item。
Item按顺序经过所有管道组件。
在每个管道组件中，执行定义的逻辑，如验证、清洗等。
如果数据通过所有管道组件，将被持久化存储。
如果某个管道组件拒绝Item，则后续管道组件不会再处理该Item，该Item将被丢弃。

5.1.2 设计管道的基本原则

设计一个好的管道组件需要考虑以下原则：

效率：数据处理应该尽可能高效，避免进行耗时的操作，以保证爬虫的吞吐量。
简洁性 ：管道的职责应该单一，避免在管道中实现过多的逻辑。
可重用性 ：如果可能，设计的管道应该可以被其他项目重用。
错误处理 ：应考虑异常情况，并妥善处理，如记录日志或重新尝试存储。

5.2 实现数据处理逻辑

5.2.1 编写数据清洗规则

为了保证数据的准确性和可用性，我们需要对数据进行清洗。下面是一个简单的数据清洗规则，使用Scrapy自带的Pipeline来实现：

import scrapy

class Data清洗Pipeline(scrapy.Pipeline):
    def process_item(self, item, spider):
        # 去除空值
        item['title'] = item['title'].strip() if item['title'] else '未知'
        # 格式化日期，假设item中有一个字段是date
        item['date'] = item['date'].strftime('%Y-%m-%d') if item['date'] else '未知'
        return item

5.2.2 数据去重与持久化存储策略

数据去重是避免重复存储相同数据的关键步骤。Scrapy提供了简单的去重机制，但我们可以根据需要自定义更复杂的去重逻辑。

class 数据去重Pipeline(scrapy.Pipeline):
    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            # 如果ID已存在，丢弃该Item
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['id'])
            # 持久化存储，此处以数据库为例
            self.store_in_database(item)
            return item

    def store_in_database(self, item):
        # 将Item存储到数据库的逻辑
        # ...
        pass

通过以上管道组件的实现，我们能够确保只有经过验证且不重复的数据被保存。对于更复杂的数据持久化需求，可能需要结合数据库系统进行详细设计，例如使用ORM框架、处理事务等。

管道组件的这些处理逻辑，正是在爬虫数据处理过程中发挥核心作用的部分，从清洗到去重，再到持久化，确保了数据的高质量和爬虫的高效性。在后续的章节中，我们还将深入探讨中间件的开发与优化策略，这对于完善爬虫功能至关重要。

6. 自定义中间件应用与优化

6.1 中间件的工作机制

6.1.1 中间件在爬虫中的作用

在Scrapy框架中，中间件是请求和响应处理过程中的一个可扩展点，它们位于Scrapy引擎与下载器和爬虫之间。中间件可以用于多种目的，比如修改请求和响应，处理异常情况，以及跟踪爬虫的行为等。每一个中间件都是一个Python类，其中包含了特定的方法来处理请求和响应。

6.1.2 分析中间件处理请求和响应的流程

当一个Scrapy爬虫发送一个请求时，该请求会按照以下顺序经过中间件：

process_spider_input(response, spider) ：当响应返回时，首先通过 process_spider_input 方法，此方法在将响应传递给爬虫之前进行处理。如果返回 None ，则继续处理。如果返回 DropItem 异常，则丢弃该响应。
爬虫代码：响应被传递给爬虫的 parse 方法或其他处理函数。
process_spider_output(response, result, spider) ：处理函数的输出（即Item和Request）经过 process_spider_output 方法。在这里可以过滤、修改或增强输出。
Item Pipeline：输出的Item被传递到Item Pipeline，进行进一步处理如存储。
process_spider_exception(response, exception, spider) ：如果在爬虫处理过程中出现异常，则调用 process_spider_exception 方法。
process_start_requests(request, spider) ：在启动爬虫时， process_start_requests 方法允许中间件修改起始请求。

6.2 实现自定义中间件

6.2.1 编写中间件代码模板

创建一个自定义中间件非常简单，只需要在项目目录下创建一个Python模块，并定义一个中间件类。例如，下面是一个空的中间件类模板：

from scrapy import signals

class MyCustomMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # Scrapy acts as if the method doesn't exist.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used to get the settings
        s = crawler.settings
        # Here you can initialize the middleware with settings and other crawler components
        return cls()

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.
        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.
        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.
        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.
        # Must return only iterables of Request or Item objects.
        for r in start_requests:
            yield r

    def spider_closed(self, spider):
        # Called when the spider is closed (after finishing processing all requests).
        pass

6.2.2 应用中间件进行请求和响应处理

中间件需要在 settings.py 文件中启用，只需添加中间件路径到 SPIDER_MIDDLEWARES 设置即可：

SPIDER_MIDDLEWARES = {
   'myproject.middleware.MyCustomMiddleware': 543,
}

设置中间件的顺序非常重要，数字越小，中间件的优先级越高。

6.3 中间件的性能优化

6.3.1 提升爬虫效率的中间件策略

为了提升爬虫的效率，中间件中可以采用以下策略：

请求去重 ：创建中间件以过滤掉已经发送的请求，从而减少不必要的网络请求。
自定义User-Agent ：某些网站会限制来自特定User-Agent的请求，因此可以通过中间件来随机生成User-Agent，避免被封锁。
会话保持 ：对于需要登录或维护会话的网站，中间件可以保存和重用会话，以模拟正常用户行为。
代理池 ：使用代理池中间件，动态更换IP，可以防止IP被封。

6.3.2 防止被封IP的中间件应用实例

在某些场景下，网站可能会对连续快速的请求进行封锁，为了防止这一情况，可以通过中间件控制请求的发送速度：

import time

class RateLimitingMiddleware(object):

    def process_request(self, request, spider):
        # Get the current time
        now = time.time()

        # The first time, set the last time to now
        if not hasattr(spider, 'last_request_time'):
            spider.last_request_time = now

        # Calculate the difference between the current and last time
        time_diff = now - spider.last_request_time

        # If time difference is less than the threshold, delay the request
        if time_diff < spider.rate_limit:
            time.sleep(spider.rate_limit - time_diff)
        # Update the last request time
        spider.last_request_time = time.time()

在爬虫的 settings.py 中设置 rate_limit 变量，并在爬虫类中实例化：

# settings.py
RATE_LIMIT = 1.5  # Set the rate limit in seconds

# spider.py
class MySpider(scrapy.Spider):
    rate_limit = settings.get('RATE_LIMIT')

以上便是自定义中间件的应用与优化方法，通过合理配置和扩展中间件，可以使得爬虫更加高效和稳定。

本文还有配套的精品资源，点击获取