Scrapy爬虫框架笔记（一）

最新推荐文章于 2025-04-25 11:47:46 发布

姜不吃葱

最新推荐文章于 2025-04-25 11:47:46 发布

阅读量186

点赞数

分类专栏： python 文章标签： python pycharm

本文链接：https://blog.youkuaiyun.com/soul7y/article/details/107014929

版权

之前一直用requests+BeautifulSoup进行爬虫，想要接触一下Scrapy。

配置环境

首先需要配置环境，按照Scrapy文档给出的需要安装python+lxml+OpenSSL然后才能安装Scrapy。所以按照步骤安装python3.7之后使用pip install依次安装lxml、OpenSSL、Scrapy。
然后命令行进入存储代码的目录中，egH:\python\Scrapy，执行scrapy startproject tutorial。会包含一下文件

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

分别为

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.