python爬虫库`Scrapy框架安装与使用

最新推荐文章于 2025-04-03 16:49:51 发布

范哥来了

最新推荐文章于 2025-04-03 16:49:51 发布

阅读量531

点赞数 9

文章标签： python 爬虫 scrapy

本文链接：https://blog.youkuaiyun.com/qq_43286832/article/details/145914166

版权

要安装并开始使用 Scrapy 框架，您可以按照以下步骤操作。首先确保您的 Python 环境已经设置好，并且您有权限安装新的包。

安装 Scrapy

Scrapy 可以通过 pip 轻松安装。打开命令行工具（如 Windows 的 CMD 或 PowerShell，macOS 和 Linux 的终端），然后运行：


pip install scrapy

如果在安装过程中遇到任何依赖问题，请确保您的 Python 版本符合要求（通常 Scrapy 支持 Python 3.6+）并且所有必要的编译工具都已安装。

创建一个 Scrapy 项目

一旦安装完成，接下来就可以创建一个新的 Scrapy 项目了。选择一个合适的位置来存放您的项目文件夹，然后执行下面的命令：


scrapy startproject myproject

这将生成一个名为 myproject 的目录结构，里面包含了基本的 Scrapy 项目配置。进入新创建的项目目录：


cd myproject

编写爬虫

在 myproject/spiders 目录下创建一个新的爬虫文件，例如命名为 example_spider.py。接着，在该文件中定义您的爬虫逻辑。这里给出一个简单的例子：


import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        self.log('Visited %s' % response.url)
        # 解析页面内容
        title = response.css('title::text').get()
        self.log(f'Title: {title}')
        
        # 如果需要跟进链接继续抓取，可以这样写
        for next_page in response.css('a::attr(href)').getall():
            if next_page is not None:
                yield response.follow(next_page, self.parse)

上述代码定义了一个名为 example 的爬虫，它会访问 example.com 并打印出网页标题。此外，还演示了如何跟随页面中的链接进行进一步抓取。