scrapy框架: 实现爬虫.
下载: pip install scrapy
pip install argparse
学习: 从官网.
第一个scrapy框架项目创建开发:
scrapy startproject project1
cd project1
scrapy genspider example example.com
备注: 默认创建了一个项目project1.
也默认生成了一个爬虫:example
导入project1到idea编辑器中,并指定编译环境:2.7
编写spiders/example.py 生成的爬虫文件:
明确name , start_urls 属性.
编写parse()函数.
测试: 爬虫是否能够正常与51job平台建立连接.
1.打开命令行: scrapy crawl 爬虫的name名
前提:目录必须切换到爬虫文件所在目录下.
2.在spiders/目录下, 创建init.py启动文件:
内部编写:
import scrapy
scrapy.cmdline.execute( "scrapy crawl 爬虫的name名".split() )
启动: 在init.py文件中右击run即可.
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'spider1' #爬虫标识名称
# allowed_domains = ['example.com']
start_urls = ['http://books.toscrape.com/'] #开始爬取的位置
def parse(self, response):
for book in response.xpath("//article[@class='product_pod']"):
book_name = book.xpath("./h3/a/@title").extract()
book_price = book.xpath("./div[@class='product_price']/p[@class='price_color']/text()").extract()
yield{
'name':book_name,
'price':book_price,
}