python——爬虫框架scrapy（数据挖掘）

最新推荐文章于 2024-05-08 09:31:27 发布

原创

最新推荐文章于 2024-05-08 09:31:27 发布 · 695 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了Python的Scrapy框架，一个用于数据挖掘的爬虫框架。Scrapy不仅适用于网络抓取，还可用于API数据提取。文中通过一个示例展示了如何创建和运行蜘蛛，解释了异步请求调度的机制以及Scrapy提供的如CSS选择器、XPath表达式、编码处理、扩展性和中间件等强大功能。此外，还提及了Scrapy的礼貌爬网设置，以及其内置的馈送导出、编码检测和多种存储后端支持。

Scrapy简介

Scrapy是一种用于抓取网站和提取结构化数据的应用程序框架，可用于广泛的有用应用程序，如数据挖掘，信息处理或历史存档。

尽管Scrapy最初是为网络抓取而设计的，但它也可以用于使用API（例如Amazon Associates Web Services）或作为通用网络爬虫来提取数据。

漫画示例蜘蛛

这是一个蜘蛛的代码示例，它在网页http://quotes.toscrape.com上删除着名的引号：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.xpath('span/small/text()').get(),
            }

        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

将它放在一个文本文件中，将其命名为类似quotes_spider.py 的runspider命令并使用以下命令运行蜘蛛：scrapy runspider quotes_spider.py -o quotes.json
完成后，将在quotes.json文件中包含JS