利用Scrapy 编写爬虫
1.创建一个 Scrapy 的项目
eg:在桌面创建一个crawl项目爬虫
在命令行中 输入 cd Desktop
scrapy startproject scrapy_test
2.编辑Item容器
//这个是用来存放你到底要爬取那些数据,相当于整个字典存放数据
在 items.py 文件里编辑
//我们想爬取 标题 连接 和简介
class ScrapyTestItem(scrapy.Item)://类名可以改变
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()
3.编写爬虫
//包含了一个用于下载的初始的URL,然后是如果跟进网页中的链接
以及如何分析页面内容,还有提取生成item的方法
在/scrapy_test/spiders 里面新建一个文件 当做爬虫
新建文件 叫 spider_test.py
import scrapy
from scrapy_test.items import ScrapyTestItem
class TestSpider(scrapy.Spider)://必须继承scrapy.Spider这个类
name = "myspider" //爬虫的名字,用于标识每一个爬虫
allowed_domains = ['dmoztools.net'] //限制爬虫只在 domz.org这个域名里面爬取
start_urls=['http://dmoztools.net/Reference/Archives/Arts/Film/']//开始的url,可传入多个
def parse(self,response):
sel = scrapy.selector.Selector(response) //初始化shell
sites = sel.xpath('//div[@class="results browse-content"]/div/div[@class="title-and-desc"]')
//存放到Item容器里
items = []
for site in sites
item = scrapyTestItem()
item['title'] = site.xpath('a/div/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('div/text()').extract()
items.append(item)
return items
4.保存起来
cmd下
scrapy craw myspider -o item.json -t json
1.创建一个 Scrapy 的项目
eg:在桌面创建一个crawl项目爬虫
在命令行中 输入 cd Desktop
scrapy startproject scrapy_test
2.编辑Item容器
//这个是用来存放你到底要爬取那些数据,相当于整个字典存放数据
在 items.py 文件里编辑
//我们想爬取 标题 连接 和简介
class ScrapyTestItem(scrapy.Item)://类名可以改变
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
link = scrapy.Field()
desc = scrapy.Field()
3.编写爬虫
//包含了一个用于下载的初始的URL,然后是如果跟进网页中的链接
以及如何分析页面内容,还有提取生成item的方法
在/scrapy_test/spiders 里面新建一个文件 当做爬虫
新建文件 叫 spider_test.py
import scrapy
from scrapy_test.items import ScrapyTestItem
class TestSpider(scrapy.Spider)://必须继承scrapy.Spider这个类
name = "myspider" //爬虫的名字,用于标识每一个爬虫
allowed_domains = ['dmoztools.net'] //限制爬虫只在 domz.org这个域名里面爬取
start_urls=['http://dmoztools.net/Reference/Archives/Arts/Film/']//开始的url,可传入多个
def parse(self,response):
sel = scrapy.selector.Selector(response) //初始化shell
sites = sel.xpath('//div[@class="results browse-content"]/div/div[@class="title-and-desc"]')
//存放到Item容器里
items = []
for site in sites
item = scrapyTestItem()
item['title'] = site.xpath('a/div/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('div/text()').extract()
items.append(item)
return items
4.保存起来
cmd下
scrapy craw myspider -o item.json -t json

本文介绍如何使用Scrapy框架创建爬虫项目,包括项目的搭建、定义Item容器、编写爬虫逻辑及数据抓取等关键步骤。
1538

被折叠的 条评论
为什么被折叠?



