scrapy爬取豆瓣TOP250电影

1. 思路分析

1.1 网页关系分析

这里写图片描述

上图红框内是第一页网址
第一页网址:https://movie.douban.com/top250?start=0
第二页网址:https://movie.douban.com/top250?start=25

第十页网址:https://movie.douban.com/top250?start=225
可以看出存在规律,实际就是每页展示25部电影。

1.2 页面内容定位

由于使用scrapy框架,可用Xpath表达式定位元素。
推荐可以使用Firefox的Firefinder插件结合Xpath,快速的定位到想要提取的元素。
这里写图片描述

2. 创建项目编写爬虫

创建一个项目目录douban

scrapy startproject douban

进入douban目录创建爬虫film

scrapy genspider -t basic film movie.douban.com

items.py代码如下

import scrapy


class DoubanItem(scrapy.Item):

    rank = scrapy.Field()
    title = scrapy.Field()
    dr = scrapy.Field()
    act = scrapy.Field()
    ty = scrapy.Field()
    yr = scrapy.Field(
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值