首先,我们要确定要爬取的对象,然后确定我们需要的数据,要有针对性的去分析,打开豆瓣网查看


在这里我们可以看到即将上映的电影不多呀,先试试这个吧…
右键检查,打开开发者模式

此时点击NETWORK选项是没有数据的,我们需要F5刷新一下就可以看到数据了

我们找到深圳,然后可以看到我们请求的URL地址是吧,继续往下看,找到我们的request headers信息

referer、cookies和user-agent是浏览器针对客户端做的身份标识,目的是为了反爬,我们这个爬虫中,需要获取referer和user-agent即可
继续往下分析,接下来我们点击element选项

点击element选项后,再点击左上角的箭头,这样你鼠标移动在主页哪里,代码对应的位置就会有显示,方便我们确定数据的位置,如图所示,当我点击在即将上映的位置是,对应的 h2 的位置高亮了,如此,我们便能清楚的找到每一个电影所在的url位置了

点开 h2 这个标签,我们就能看到 即将上映了
继续点开下面的标签,观看发现 ul 这个标签下的 li 标签内部存放的是所有的即将上映的电影

现在我们能看到在 li 标签内部,有电影的名字 对应的是data-title 标签,导演对应的是 data-actors 标签,电影的详情对应的是 a 标签中的 herf链接,
现在我们不要=需要这么多的数据,只需要将电影名称和导演爬下来即可,现在开始完成代码



运行结果如下:

爬虫-基于requests模块xpath解析爬取豆瓣即将上映电影目录
本文详细介绍了如何使用爬虫技术从豆瓣网站抓取即将上映的电影数据,包括电影名称和导演信息。通过分析网页结构,利用开发者工具定位目标数据位置,并解析页面获取所需信息。
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
Python3.9
Conda
Python
Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

被折叠的 条评论
为什么被折叠?



