作为小白,对于滚轮动态加载没有想到简便的解决方法,主要是通过for循环。
在学习之前的scrapy+selenium爬取的就是知乎页面,知乎页面是滚轮动态加载的,使用滚动到底这个js命令时发现只能翻转一页

于是在’window.scrollTo(0,document.body.scrollHeight)'之前增加了一个for循环后可以成功加载多次。

在scrapy+splash+Lua脚本滚轮动态加载中也是如此,只是使用lua脚本的for循环
lua脚本的for循环实例:

在scrapy中传入为:

传入后cmd的运行:

mongo数据库中的爬取的数量明显增加

之前的爬取数量为27
但是这里存在的问题是:不知道能否加载完,其次for循环过多会影响速度;如果要比较精确的加载完且不浪费循环需要进行计算,这是个很麻烦的事情。
[1]https://www.jb51.net/article/66867.htm

针对滚轮动态加载的网页,如知乎,通过for循环优化Scrapy+Selenium或Scrapy+Lua脚本,实现更全面的内容抓取。解决了仅翻页一次的问题,但存在加载完整性和效率平衡的挑战。
1452

被折叠的 条评论
为什么被折叠?



