Python爬虫实战项目2 | 动态网站的抓取(爬取电影网站的信息)

本文介绍了动态网站的爬取方法,通过分析电影网站的动态加载过程,找出JS文件并解析其中的电影信息。文章详细阐述了如何定位动态文件,以及如何下载和处理这些文件来获取所需数据,最后展示了项目结构和代码实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.什么是动态网站?

动态网站和静态网站的区别在于,网页中常常包含JS,CSS等动态效果的内容或者文件,这些内容也是网页的有机整体。但对于浏览器来说,它是如何处理这些额外的文件的呢?首先浏览器先下载html文件,然后根据需要,下载JS等额外文件,它会自动去下载它们,如果我们要爬取这些网页中的动态信息,则需要我们亲手去构造请求数据。

2.如何找到这些动态效果的额外文件?

实例:

我们打开一个电影网站:http://movie.mtime.com/103937/,然后按F12,在开发者工具中找到“网络”这一选项,我用的是FireFox,如图:

刷新下:

可以发现,网页中除了html文件,还加载了其他文件,比如CSS,JS等。

比如网页中的评分信息等是在上图我点击变蓝的一行js文件中动态加载的。那我是如何找到这个文件的呢,很抱歉,目前只能说是经验,因为网站中动态载入的信息大多是在js文件中的,所以我们可在js、xhr文件的响应text中查看下,是否是我们想要的数据,一般都能找到。

3.这些动态信息文件有什么用,以及我们怎么下载它们?

刚刚已经说过,这些文件的作用就是动态地载入网页信息,比如上图中的“票房:10.25亿元”是我们想要爬取的数据,但在网页中却不存在,因此可以预见,是这些js等文件动态载入的。

那怎么下载它们呢?首先点击该文件,然后再点击“消息头”,会看到“消息头”、“Cookie”、“参数”等按钮,如图:

然后我们可以看到这个js文件的的请求网址,该请求网址的结构是有规律的,动态变化的只有3个部分,分别是电影的网址,时间,以及电影的编号,这三项内容显然电影网址和电影编号可以从静态html网页中获得,时间可以自己构造,然后就可以访问该js文件的网址获取数据,数据是以字典的形式呈现的,内容在”响应“里,如图:

我们可以用json模块 来处理它,比较方便。

4.下面是该项目的结构和代码:

4.1.目录结构:

4.2.代码模块:

1.HtmlDownloader模块中的download方法用于下载网页信息:

import requests
import chardet


class HtmlDownloader(object):
    def download(self, url):
       
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值