Eclipse配置scrapy工程

最新推荐文章于 2024-07-16 09:21:42 发布

Masqueradey

最新推荐文章于 2024-07-16 09:21:42 发布

阅读量737

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.youkuaiyun.com/Masqueradey/article/details/79468568

python 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了如何在Windows环境下使用Eclipse配置Scrapy项目。首先通过CMD创建Scrapy项目，然后在Eclipse中新建PyDev项目并复制Scrapy项目。接着创建cmdline.py文件，并配置运行配置，包括指定爬虫名和运行参数。最后解决可能遇到的pypiwin32依赖问题，完成项目配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近毕业设计选的是python网络爬虫，python现成的爬虫模块有很多，scrapy,bs4等等，但是我参考的教科书上面说scrapy参考文献较多，也比较简单，便决定用这个模块来做爬虫。书中的工程是用linux终端来做爬虫，但是本人linux小白，而且更加倾向于用windows平台下的Eclipse来新建项目，所以只能自己慢慢摸索着在Eclipse中配置scrapy项目。

1.因为Eclipse中暂不支持直接创建scrapy项目，所以我们要用cmd命令行来新建一个scrapy项目

可以看到，用scrapy startproject +项目名这条命令创建完一个初始的scrapy项目(此时该项目只是一个scrapy模板，并不含爬虫文件)后scrapy模块很贴心的给出了提示，我们可以通过cd Scrapy和 scrapy genspider example example.com这两条命令在已有的scrapy模板下新建爬虫文件（一开始项目中有个spiders文件夹，其中该文件夹一开始的时候只有__init__.py这个文件，运行命令后出现了example.py这个文件，其中example.com是用来给该文件中的根URL初始化）。

2.在Eclipse中新建一个pydev项目，并将我们用cmd创建的scrapy项目复制到pydev项目中。这时，项目是无法运行的，因为eclispe是不知道从哪启动scrapy项目的，我们需要新建一个cmdline.py文件（跟items.py同目录）

其中argv中的第三个变量是自己的爬虫名，即第一步中scrapy genspider example example.com中的example。

3.配置run Configurations.

在python run中新建configuration，其中project中填项目名，Main Module填cmdline.py位置，arguments中的program arguments填 crawl example(前面提到的自己创建的爬虫名)，working directory中选other，位置为项目文件夹位置