python爬取豆瓣电影排行榜前250名

爬取豆瓣电影排行榜

  1. 选择页面
    首先,我们打开豆瓣的电影排行榜的页面。网页链接:双击跳转

2. 页面分析
接下来,我们要在这个页面提取每一部电影的详情节链接,总页码数,每一部电影的短评。
我们先来提取电影详情页的链接。

# 获取豆瓣top250每个页面下的电影豆瓣链接列表
        movies_link_list = html.xpath('//li//div[@class="info"]/div[@class="hd"]/a/@href')

提取导航页的每一部电影的短评。

`# 获取每个页面下的电影的代表影评
        movies_quote_list = html.xpath('//p[@class="quote"]/span[@class="inq"]/text()')`

提取电影排行榜的总页数

`total_page_num = int(html.xpath('string(//span[@class="next"]/preceding-sibling::a[1])'))`

下面,我们提取每一部电影的详细信息。

在这里插入图片描述 我们提取的信息包括上图中的电影排名、名称、链接、评分、评价人数以及各个星级的评价人数,还有电影的导演,编剧、主演、类型、制片国家/地区、语言、上映日期、片长、又名和IMDb链接。代码如下:

				# 获取电影排名
                movie_rank = r'电影排名:{}'.format(html.xpath('string(//div[@class="top250"]/span[@class="top250-no"])'))
                # 获取电影名称
                movie_name = r'电影名称:{}'.format(html.xpath('string(//span[@property="v:itemreviewed"])'))
                # 获取电影链接
                movie_link = r'电影链接:{}'.format(movie_link)
                # 获取电影评分
                movie_score = r'电影评分:{}'.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值