python3爬虫学习系列05 - 获取动态内容

原创于 2019-08-09 14:29:21 发布 · 221 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

python3 同时被 2 个专栏收录

56 篇文章

订阅专栏

13 篇文章

订阅专栏

本文探讨了针对JavaScript动态网页的爬虫技术，介绍了JS逆向工程与动态网页渲染两种方法，前者通过分析AJAX请求获取数据，后者利用浏览器引擎如webkit、selenium模拟真实浏览效果。

文章目录

一、对动态网页进行逆向工程
二、渲染动态网页
三、参考文献

之前的博客：
爬虫学习系列02-常见的下载和抽取网页的方法
爬虫学习系列03-下载缓存
爬虫学习系列04 - 并发下载

上一节我们实现了并发爬取功能，但是还存在着缺陷，那就是对于使用JavaScript的动态网站，这种网页在浏览器中展示的内容有许多都不会出现在html源代码中。

书中提供了两种方法解决此类问题：
1. JS逆向工程
2. 渲染JS

一、对动态网页进行逆向工程

针对性地分析说要爬取的网页，找到其请求数据的AJAX请求url，根据此url获得动态网页中的数据，然后解析返回的json数据。
通用性太差。

二、渲染动态网页

使用浏览器的渲染引擎，也即是，解析html、应用css样式、执行js语句。说白了就是模拟浏览器的行为，然后得到渲染后的数据。

可以使用webkit、selenium等类似的库来实现。

三、参考文献

[1]《用python写web爬虫(web scraping with python)》

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。