安装部分请参考百度文档
源码示例
https://github.com/shanxiguowang/bole_crawl
1.先创建一个项目
2. 切换到创建项目的文档下
cd itemname
3. 创建一个规则爬虫
item_spider : 就是你要创建爬虫的名字
“item.com”:爬虫目标网站的域名
我们进入这个爬虫来写逻辑代码
这里我们以抓取csdn为例
CsdnSpider
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider,Rule
from csdn_spider.items import CsdnSpiderItem
import re
class CsdnSpider(CrawlSpider):
name = 'csdn'
allowed_domains = ['youkuaiyun.com']
start_urls = ['https://www.youkuaiyun.com']
rules = (
Rule(LinkExtr