https://blog.youkuaiyun.com/u014738683/article/details/78072484
1、安装idea
2、安装python插件
需要注意python可能有多个安装位置
3、brew install pip安装pip
4、pip3 install scrapy 可能会失败 再试几次
5、创建scrapy startproject tutorial
6、用idea打开tutorial 并配置project structure下module的sdk
7、在spiders目录下创建Spider
import scrapy;
class QuotesSpider(scrapy.Spider):
name = "quotes"
def start_requests(self):
urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
page = response.url.split("/")[-2]
filename = 'quotes-%s.html' % page
with open(filename, 'wb') as f:
f.write(response.body)
self.log('Saved file %s' % filename)
此时运行scrapy crawl 项目名 -o test.json
就可以运行
8、在根目录__init__.py
添加启动代码
from scrapy import cmdline
cmdline.execute("scrapy crawl quotes".split());
9、将__init__.py
添加到idea的启动项
注意点:
No module named 'scrapy'
错误
系统有多个python路径 安装时 要导入对应的python
目前已安装2.7 3.7 3.9版本 如果使用3.9
pip3.9 install 模块名