一.理论逻辑图
二.创建项目
scrapy startproject mycrawl
cd mycrawl
scrapy genspider -t crawl mycrawlspider sohu.com
#codoing:utf-8 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class WeisuenSpider(CrawlSpider): name = 'mycrawlspider' allowed_domains = ['sohu.com'] start_urls = ['http://sohu.com/'] rules = ( Rule(LinkExtractor(allow=(r'.shtml',),allow_domains=('sohu.com',)), callback='parse_item', follow=True), ) def parse_item(self, response): print response.url注意follow=True 代表会一直追踪下去,follow=False一次循环就结束
本文介绍了一个使用Scrapy框架实现的搜狐新闻爬虫项目。通过创建项目、定义爬虫类及解析规则,爬虫能够自动抓取搜狐网站上的新闻链接并打印出来。文中详细展示了爬虫项目的搭建过程和核心代码。
391

被折叠的 条评论
为什么被折叠?



