这次我抓取的内容有:电影的title,director,评分,名言和详情页的电影简介,一共爬取五个内容。涉及主页的爬取和详情页的爬取。用scrapy可以很简单的实现这次爬取。
此次涉及 的除了scrapy框架外还有正则表达式的编写等知识。
豆瓣250 之前也爬取过,用的selenium自动化,这次用scrapy爬取一次,用于scrapy的初探
首先建立一个project:
scrapy startproject doubanmovie
接下来建立一个爬虫文件:
scrapy genspider doubanspider douban.com
前面两步有不了解的可以看我上一篇文章,有解释
链接:这里找到上一篇文章
接下来就是正式编写爬虫了。
主体当然还是 doubanspider.py 文件了
# _*_ coding:utf-8 _*_
import scrapy
from scrapy.selector import Selector
from doubanmovie.items import DoubanmovieItem
class Movie