1.什么是动态网站?
动态网站和静态网站的区别在于,网页中常常包含JS,CSS等动态效果的内容或者文件,这些内容也是网页的有机整体。但对于浏览器来说,它是如何处理这些额外的文件的呢?首先浏览器先下载html文件,然后根据需要,下载JS等额外文件,它会自动去下载它们,如果我们要爬取这些网页中的动态信息,则需要我们亲手去构造请求数据。
2.如何找到这些动态效果的额外文件?
实例:
我们打开一个电影网站:http://movie.mtime.com/103937/,然后按F12,在开发者工具中找到“网络”这一选项,我用的是FireFox,如图:
刷新下:
可以发现,网页中除了html文件,还加载了其他文件,比如CSS,JS等。
比如网页中的评分信息等是在上图我点击变蓝的一行js文件中动态加载的。那我是如何找到这个文件的呢,很抱歉,目前只能说是经验,因为网站中动态载入的信息大多是在js文件中的,所以我们可在js、xhr文件的响应text中查看下,是否是我们想要的数据,一般都能找到。
3.这些动态信息文件有什么用,以及我们怎么下载它们?
刚刚已经说过,这些文件的作用就是动态地载入网页信息,比如上图中的“票房:10.25亿元”是我们想要爬取的数据,但在网页中却不存在,因此可以预见,是这些js等文件动态载入的。
那怎么下载它们呢?首先点击该文件,然后再点击“消息头”,会看到“消息头”、“Cookie”、“参数”等按钮,如图:
然后我们可以看到这个js文件的的请求网址,该请求网址的结构是有规律的,动态变化的只有3个部分,分别是电影的网址,时间,以及电影的编号,这三项内容显然电影网址和电影编号可以从静态html网页中获得,时间可以自己构造,然后就可以访问该js文件的网址获取数据,数据是以字典的形式呈现的,内容在”响应“里,如图:
我们可以用json模块 来处理它,比较方便。
4.下面是该项目的结构和代码:
4.1.目录结构:
4.2.代码模块:
1.HtmlDownloader模块中的download方法用于下载网页信息:
import requests
import chardet
class HtmlDownloader(object):
def download(self, url):