pycharm使用scrapy框架(十步解决问题)

码代码最蛋疼在于解决bug和其它问题,自己摸索要很长时间,耗了3个多小时才找到适合自己的方法。之前在Ubuntu里弄linux图形化写scrapy就是bug不断,系统稳定性不咋样,折腾蛋都疼,不多讲了,看问题解决步骤吧。


第一步:在命令行pip install scrapy 不行就试试pip3 install scrapy或sudo pip install scrapy

第二步:在命令行进入自己想写这个项目的磁盘位置,如果去E盘则在命令行中输e: ,去G盘输g:

第三步:创建文件: scrapy startproject testdemo(testdemo为文件名,自己随意取)

第四步:打开pycharm ,点击左上角file > open ,找到刚才创建的文件(test)打开它

第五步:在pycharm最下面有个Terminal,此时应该已经默认在此文件夹了,输入cd test ,进入下一层目录,仔细看确实是自动建立了两个test,第二个test是真正我们有大作用的

第六步:衔接上一步,cd spiders,进入spiders文件夹,然后创建爬虫,输入命令:scrapy genspider myspider zhihu.com (myspider是爬虫名,随意取,后面那个是规定爬取的网址是一级域名)

第七步:创建好了爬虫,发现spiders 里没出现,不用着急,把spiders下拉收上去再点下来就出来了。然后写了爬虫发现运行不对劲,显示运行完了没结果那是因为scrapy默认不能在IDE中运行,所以我们自己搞个文件让它运行。在项目根目录建个文件,名字随意,我自己起了start.py(与scrapy.cfg同级)


13367077-20cbb6f8dd46a2b4.PNG
start.py创建

然后在start.py里面输入如下代码:


13367077-e7b1f37fed5f7470.PNG
代码

excute里的前两个字符串不变,最后一个是你自己取的爬虫名。

然后运行这个start.py就可以起到运行爬虫的作用,!!!!!!!!!!或文件也不建在Terminal里输入scrapy crawl myspider

第八步:如何运行发现报win32的错误就去以下链接地址可以下载:http://sourceforge.net/projects/pywin32/files%2Fpywin32/,找自己对应版本的win32。

我是python3.6所以下了链接:https://nchc.dl.sourceforge.net/project/pywin32/pywin32/Build%20221/pywin32-221.win-amd64-py3.6.exe

第九步:点击安装win32,再运行爬虫就可以了,有时候你安装win32时说什么 not found 多半是你下的对应版本不对,我之前下的是python3.6的win32出先这情况,但我下的是220版的,下来221就好了,不要只看后面那段,前面那个三个数字也重要

第十步:其实这不在这个范畴之内了,属于scrapy里面内容了,再报错看看报错里是不是有robot报错,去setting.py里把robot的协议注释掉,还不行就看看是不是User-Agent问题了

### PyCharm 使用 Scrapy 爬虫框架 #### 安装 Scrapy 和配置环境 为了在 PyCharm使用 Scrapy 爬虫框架,首先需要确保 Python 已经正确安装并配置好开发环境。接着,在终端中执行命令来全局安装 Scrapy: ```bash pip install scrapy ``` 对于 Mac 用户来说,可能会遇到一些特定于操作系统的挑战[^3]。 #### 创建 Scrapy 项目 一旦 Scrapy 成功安装完毕,可以在目标文件夹内通过命令行工具创建一个新的 Scrapy 项目: ```bash scrapy startproject ScrapyDemo ``` 这一步会在当前路径下生成名为 `ScrapyDemo` 的新目录结构,其中包含了运行 Scrapy 所需的基础组件和设置文件[^2]。 #### 配置 PyCharm 进行调试 尽管 PyCharm 并未内置专门用于启动 Scrapy 调试模式的功能按钮,但是可以通过编写简单的辅助脚本实现这一目的。具体做法是在项目的根目录里新建一个 `.py` 文件作为入口点,并在此处调用 Scrapy 提供的相关 API 或者直接触发命令行指令以达到相同效果[^4]。 下面是一个可以用来启动 Spider 的简单例子——假设已经有一个 spider 名称为 `myspider.py`: ```python from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings if __name__ == '__main__': process = CrawlerProcess(get_project_settings()) process.crawl('myspider') process.start() ``` 保存上述代码到合适位置之后,就可以像平常那样利用 PyCharm 来设定断点、查看变量状态等来进行有效的调试工作了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值