scrapy入门

本文介绍如何使用Scrapy框架创建和运行爬虫项目,包括安装、配置、编写爬虫代码及测试过程,通过实例演示爬取书籍信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

scrapy框架: 实现爬虫.
下载: pip install scrapy
pip install argparse

学习:	从官网.

第一个scrapy框架项目创建开发:
	scrapy startproject project1
	
	cd project1
	
	scrapy genspider example example.com
	
	备注: 默认创建了一个项目project1. 
	      也默认生成了一个爬虫:example 
导入project1到idea编辑器中,并指定编译环境:2.7

编写spiders/example.py 生成的爬虫文件:
	明确name , start_urls 属性.
	编写parse()函数.

测试: 爬虫是否能够正常与51job平台建立连接.
	1.打开命令行: scrapy crawl 爬虫的name名
		前提:目录必须切换到爬虫文件所在目录下.
	
	2.在spiders/目录下, 创建init.py启动文件:
		内部编写:
		import scrapy
		scrapy.cmdline.execute( "scrapy crawl 爬虫的name名".split() )

		启动: 在init.py文件中右击run即可.	



import scrapy


class ExampleSpider(scrapy.Spider):
    name = 'spider1'    #爬虫标识名称
    # allowed_domains = ['example.com']
    start_urls = ['http://books.toscrape.com/']   #开始爬取的位置

    def parse(self, response):
        for book in response.xpath("//article[@class='product_pod']"):
            book_name = book.xpath("./h3/a/@title").extract()
            book_price = book.xpath("./div[@class='product_price']/p[@class='price_color']/text()").extract()
            yield{
                'name':book_name,
                'price':book_price,
            }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值