爬虫中使用Splash渲染js

  1. 在使用爬虫的时候,你是否遇到这样的困惑,要爬的网站(例如:https://news.qq.com)在浏览器上明明是可以看到源代码的,但是使用request或者script的爬取页面信息的时候只返回了页面的js代码,和html 头部标签,除此之外什么都没有。
  2. 这是因为好多页面都是用到了js渲染的。爬虫在运行的时候,并不会运行js.所以呀,咱们需要一个工具,返回该页面js渲染后的页面。这个工具就是Splash。
  3. Splash是一个javascript渲染服务。它是一个带有HTTP API的轻量级Web浏览器,使用Twisted和QT5在Python 3中实现。QT反应器用于使服务完全异步,允许通过QT主循环利用webkit并发。
  4. 这个工具真的牛呀,还支持各种的参数,是需要你传入要爬取页面url,就ok.其他参数可参考文档
  5. 请参考https://www.cnblogs.com/zhangxinqi/p/9279014.html 这里资料很全
  6. 顺便给一个scrapy的教程 http://www.cnblogs.com/cnkai/p/7397421.html 很不错
sudo docker run -p 8050:8050 scrapinghub/splash
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值