爬取豆瓣的正在热映电影

本文介绍了一个基础的网络爬虫教程,通过Python和XPath从豆瓣电影页面抓取正在热映的电影信息。文章详细阐述了爬取思路,包括伪装头部请求电影页面,然后利用XPath解析HTML提取li标签内的数据。

爬取豆瓣的正在热映电影

引言

本篇文章较为基础,没有什么技术含量,主要是为了回顾一下如何用XPath提取HTML页面中的数据
在这里插入图片描述

思路分析

首先,进入豆瓣电影的主页,并且选择全部正在热映的电影,进入此页面
在这里插入图片描述
这就是我们要爬取页面的URL地址
https://movie.douban.com/cinema/nowplaying/weifang/
URL地址最后一部分是当前你所在的地区
地址请求时的套路就是常规的爬虫头部伪装,今天要看的关键是页面数据的提取,这里,我就用XPath来提取数据吧!不懂XPath语法的小伙伴请自行百度。
在这里插入图片描述
分析网页的布局,我们可以发现,每一个影片都位于一个li标签中,而所有的li标签都位于一个ul标签中,因此,我们只要找到每一个li标签,再进行相应的数据提取即可。具体的操作,直接看代码吧!
在这里插入图片描述

代码

# !/usr/bin/env python
# —*— coding: utf-8 —*—
# @Time:    2020/2/1 19:17
# @Author:  Martin
# @File:    douban.py
# @Software:PyCharm
import requests
from lxml import etree
import pandas as pd
"""
豆瓣电影(正在热映的电影)爬取
"""
url = 'https://movie.douban.com/cinema/nowplaying/weifang/'
headers = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值