利用scrapy写一个小爬虫

本文介绍如何使用Scrapy框架创建爬虫项目,包括项目的搭建、定义Item容器、编写爬虫逻辑及数据抓取等关键步骤。
利用Scrapy 编写爬虫


1.创建一个 Scrapy 的项目


eg:在桌面创建一个crawl项目爬虫
在命令行中 输入 cd Desktop
scrapy startproject scrapy_test

2.编辑Item容器
//这个是用来存放你到底要爬取那些数据,相当于整个字典存放数据


在 items.py 文件里编辑
//我们想爬取 标题 连接 和简介
class ScrapyTestItem(scrapy.Item)://类名可以改变
    # define the fields for your item here like:
    # name = scrapy.Field()
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()



3.编写爬虫
//包含了一个用于下载的初始的URL,然后是如果跟进网页中的链接
以及如何分析页面内容,还有提取生成item的方法


在/scrapy_test/spiders  里面新建一个文件 当做爬虫
新建文件 叫 spider_test.py


import scrapy
from scrapy_test.items import ScrapyTestItem
class TestSpider(scrapy.Spider)://必须继承scrapy.Spider这个类
name = "myspider" //爬虫的名字,用于标识每一个爬虫
allowed_domains = ['dmoztools.net'] //限制爬虫只在 domz.org这个域名里面爬取
start_urls=['http://dmoztools.net/Reference/Archives/Arts/Film/']//开始的url,可传入多个



def parse(self,response):
sel = scrapy.selector.Selector(response) //初始化shell
sites = sel.xpath('//div[@class="results browse-content"]/div/div[@class="title-and-desc"]')

//存放到Item容器里
items = []
for site in sites
item = scrapyTestItem()
item['title'] = site.xpath('a/div/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('div/text()').extract()
items.append(item)

return items


4.保存起来
cmd下 
scrapy craw myspider -o item.json -t json




评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值