网络爬虫与邮件发送:Python技术实践
1. 执行EuroPython爬虫
我们可以使用以下命令来执行EuroPython爬虫:
scrapy crawl europython_spider -o europython_items.json -t json
执行结束后,会生成以下输出文件:
- europython_items.json
- europython_items.xml
- europython.sqlite
这些文件是在 pipelines.py 文件中定义的类里生成的,而JSON文件是由爬虫自动生成的。
另外,爬虫还可以通过 -a 选项处理在爬取命令中传递的参数。例如,下面的命令将从 http://ep2018.europython.eu/en/events/sessions 提取2018年EuroPython会议的会话数据:
scrapy crawl europython_spider -a year=2018 -o europython_items.json -t json
2. 在云端使用Scrapy
在这部分,我们将探索如何使用Scrapy在云端部署爬虫。
2.1 Scrapinghub
首先,需要在Scrapinghub服务上注册,注册地址
超级会员免费看
订阅专栏 解锁全文
1006

被折叠的 条评论
为什么被折叠?



