一. scrapy安装
使用pip install scrapy安装,输入命令后在安装Twisted依赖库时受阻,报错。
尝试解决办法:
需要先更新安装插件: pip install –upgrade incremental
再安装Twisted: pip intall twisted
再安装scrapy : pip install scrapy
或者百度搜索解决办法,下载Twisted.whl安装
二. 建立scrapy项目
1.PyCharm打开Terminal窗口输入以下命令:
创建:scrapy startproject TestSpider #TestSpider是创建的项目名称

命令执行完成后Project目录下生成对应TestSpider文件夹
2.进入创建的文件夹cd TestSpider
3.创建爬虫scrapy genspider baidu www.baidu.com #baidu是爬虫名,www.baidu.com抓取的网址

完成后TestSpider文件夹spider目录下生成baidu.py文件

三.shell调试
1.Terminal窗口输入: scrapy shell www.baidu.com
2.进入scrapy 的shell窗口进行调试
获取图中 ”百度一下“ 文字

抓取信息定位,shell中输入语句
response.xpath(('//*[@id=\"su\"]/@value').extract()

本文详细介绍了如何使用pip安装Scrapy爬虫框架及其依赖Twisted,解决安装过程中遇到的问题,并演示了如何通过PyCharm创建Scrapy项目,设置爬虫,以及使用scrapy shell进行调试的过程。
1086

被折叠的 条评论
为什么被折叠?



