利用scrapy写一个小爬虫

最新推荐文章于 2024-03-20 10:00:00 发布

原创最新推荐文章于 2024-03-20 10:00:00 发布 · 652 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #scrapy #python

爬虫相关同时被 2 个专栏收录

10 篇文章

订阅专栏

pyhton

8 篇文章

订阅专栏

本文介绍如何使用Scrapy框架创建爬虫项目，包括项目的搭建、定义Item容器、编写爬虫逻辑及数据抓取等关键步骤。

利用Scrapy 编写爬虫

1.创建一个 Scrapy 的项目

eg：在桌面创建一个crawl项目爬虫
在命令行中输入 cd Desktop
scrapy startproject scrapy_test

2.编辑Item容器
//这个是用来存放你到底要爬取那些数据，相当于整个字典存放数据

在 items.py 文件里编辑
//我们想爬取标题连接和简介
class ScrapyTestItem(scrapy.Item)://类名可以改变
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()

3.编写爬虫
//包含了一个用于下载的初始的URL，然后是如果跟进网页中的链接
以及如何分析页面内容，还有提取生成item的方法

在/scrapy_test/spiders 里面新建一个文件当做爬虫
新建文件叫 spider_test.py

import scrapy
from scrapy_test.items import ScrapyTestItem
class TestSpider(scrapy.Spider)://必须继承scrapy.Spider这个类
name = "myspider" //爬虫的名字，用于标识每一个爬虫
allowed_domains = ['dmoztools.net'] //限制爬虫只在 domz.org这个域名里面爬取
start_urls=['http://dmoztools.net/Reference/Archives/Arts/Film/']//开始的url,可传入多个

def parse(self,response):
sel = scrapy.selector.Selector(response) //初始化shell
sites = sel.xpath('//div[@class="results browse-content"]/div/div[@class="title-and-desc"]')

//存放到Item容器里
items = []
for site in sites
item = scrapyTestItem()
item['title'] = site.xpath('a/div/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('div/text()').extract()
items.append(item)

return items

4.保存起来
cmd下
scrapy craw myspider -o item.json -t json