爬虫学习笔记01—Win10下用docker安装Splash
为学习爬虫需通过Splash爬取渲染下网页内容而特此做的学习笔记,对我面临的难点做了总结,希望对跟我一样固执暂时不想装linux双系统的人有所帮助。
网上很多内容是零散的分布在各个地方,从我参考的链接就会发现,没有一个是从头到尾把所有坑都捋了一遍的,我这里就把我遇到的坑总结在这里,希望大家合理避坑。
什么是渲染?
首先渲染分为服务器渲染和客户端渲染
-
互联网早期,浏览器拿到这个html文件之后就可以直接解析展示了,这就是服务器渲染,也就是网页检查下右侧展示出来的结构内容。
-
而随着ajax兴起后,其可以有效做到前后端分离,前后端分别开发,从而大大提高效率,这就是所谓的客户端渲染,不直接在html文件中,通过接口读取展示,例如头条为你推荐新闻,每个人展示的内容不尽相同,所以这些内容需要存在后端,需要时进行调用。
简单来说源代码可以查看到的内容为服务器短渲染,查看不到为客户端渲染。
参考:服务器端渲染和客户端渲染
延展:如何快速判断页面是服务端渲染还是客户端渲染
安装Docker Toolbox
需要指出的是splash是需要基于docker去操作,而网上关于windows较多的使用教程是基于docker toolbox所做的说明,未验证docker desktop是否能操作,虽然我有查看到相关文章是说有人安装toolbox后又把toolbox卸载装desktop的,主要是因为toolbox加镜像加速较为