来写第一只爬虫
:
- from scrapy.spider import Spider
- class DmozSpider(Spider):
- name = "dmoz"
- allowed_domains = ["dmoz.org"]
- start_urls = [
- "http://www.baobaokuaizhangda.com/",
- "http://www.baobaokuaizhangda.com/"
- ]
- def parse(self, response):
- filename = response.url.split("/")[-2]
- open(filename, 'wb').write(response.body)
本文将介绍如何使用Python的Scrapy库编写简单的爬虫程序,以获取特定网站的数据。通过实例演示了如何定义爬虫类、设置起始URL、解析响应并保存数据。
94万+

被折叠的 条评论
为什么被折叠?



