爬虫中使用Splash渲染js

最新推荐文章于 2025-08-08 17:36:46 发布

日落班

最新推荐文章于 2025-08-08 17:36:46 发布

阅读量852

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_42547619/article/details/89139806

python 专栏收录该内容

9 篇文章

订阅专栏

在使用爬虫的时候，你是否遇到这样的困惑，要爬的网站（例如：https://news.qq.com）在浏览器上明明是可以看到源代码的，但是使用request或者script的爬取页面信息的时候只返回了页面的js代码，和html 头部标签，除此之外什么都没有。
这是因为好多页面都是用到了js渲染的。爬虫在运行的时候，并不会运行js.所以呀，咱们需要一个工具，返回该页面js渲染后的页面。这个工具就是Splash。
Splash是一个javascript渲染服务。它是一个带有HTTP API的轻量级Web浏览器，使用Twisted和QT5在Python 3中实现。QT反应器用于使服务完全异步，允许通过QT主循环利用webkit并发。
这个工具真的牛呀，还支持各种的参数，是需要你传入要爬取页面url，就ok.其他参数可参考文档
请参考https://www.cnblogs.com/zhangxinqi/p/9279014.html 这里资料很全
顺便给一个scrapy的教程 http://www.cnblogs.com/cnkai/p/7397421.html 很不错

sudo docker run -p 8050:8050 scrapinghub/splash

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。