scrapy初探(抓取豆瓣top250)

这次我抓取的内容有:电影的title,director,评分,名言和详情页的电影简介,一共爬取五个内容。涉及主页的爬取和详情页的爬取。用scrapy可以很简单的实现这次爬取。

此次涉及 的除了scrapy框架外还有正则表达式的编写等知识。

豆瓣250 之前也爬取过,用的selenium自动化,这次用scrapy爬取一次,用于scrapy的初探

首先建立一个project:
scrapy startproject doubanmovie
接下来建立一个爬虫文件:
scrapy genspider doubanspider douban.com
前面两步有不了解的可以看我上一篇文章,有解释
链接:这里找到上一篇文章

接下来就是正式编写爬虫了。

主体当然还是 doubanspider.py 文件了

# _*_ coding:utf-8 _*_

import scrapy
from scrapy.selector import Selector
from doubanmovie.items import DoubanmovieItem

class Movie
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值