利用Selenium和XPath抓取JavaScript动态加载内容的实践案例

小白学大数据

已于 2024-08-26 16:22:41 修改

阅读量1.8k

点赞数 8

分类专栏：亿牛云代理文章标签： selenium javascript 测试工具前端爬虫

于 2024-08-26 16:22:35 首次发布

本文链接：https://blog.youkuaiyun.com/Z_suger7/article/details/141567252

版权

引言

在当今的互联网时代，数据的获取和分析对于商业决策、市场研究以及个人兴趣都至关重要。然而，许多现代网站采用JavaScript动态加载技术来展示内容，这给传统的静态网页抓取方法带来了挑战。本文将通过一个实践案例，详细介绍如何使用Python的Selenium库结合XPath来抓取一个实际网站中由JavaScript动态加载的内容。

环境准备

在开始之前，确保你的开发环境中安装了Python以及以下库：

selenium：用于自动化Web浏览器交互。
lxml：用于解析HTML和XML文档。
beautifulsoup4：提供了一些简单的方法来导航、搜索和修改解析树。

可以通过以下命令安装所需的库：

bash
pip install selenium lxml beautifulsoup4

下载WebDriver

Selenium需要对应浏览器的WebDriver才能控制浏览器。例如，如果你使用的是Chrome浏览器，需要下载ChromeDriver。

实践案例

假设我们要抓取的网站是http://dynamic-content-example.com，该网站使用JavaScript动态加载了一个列表，我们的目标是抓取这个列表中的所有项目。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小白学大数据

关注关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用selenium+chromedriver+xpath爬取动态加载信息

Liu_Bruce的博客

02-09

3359

使用selenium+chromedriver+xpath爬取动态加载的信息使用selenium实现动态渲染页面的爬取，selenium是浏览器自动化测试框架，是一个用于Web应用程序测试的工具，可以直接运行在浏览器当中，并可以驱动浏览器执行指定的动作，如点击、下拉、填充数据、删除cookie等操作，还可以获取浏览器当前页面的源代码，就像用户在浏览器中操作一样。该工具所支持的浏览器有IE浏览器、Mozilla Firefox以及Google Chrome等。安装selenium模块首先打开Anaco

模拟浏览器爬取动态网页：使用 Selenium 实现高效动态加载网页数据的完整教程

2201_76125261的博客

01-13

1471

Selenium 的基本使用方法。动态网页的滚动加载和分页处理。数据提取与存储。结合实际需求，你可以进一步扩展功能，如处理复杂的表单交互、验证码识别等，甚至使用分布式爬虫提高效率。合理使用爬虫技术，避免对目标网站造成过多压力！

参与评论您还未登录，请先登录后发表或查看评论

python爬取script标签_Selenium+BeautifulSoup+json获取Script标签内的json数据

weixin_42508785的博客

01-14

2764

Selenium爬虫遇到数据是以 JSON 字符串的形式包裹在 Script 标签中，假设Script标签下代码如下：{"user": {"isLogin": true,"userInfo": {"id": 123456,"nickname": "LiMing","intro": "人生苦短，我用python"}}}此时drive.find_elements_by_xpath('//*[@id=...

selenium元素定位 —— 提高篇 JavaScript获取页面元素_selenium获取页面中javascript中的内容

m0_60607371的博客

04-12

1109

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**[外链图片转存中…(img-HYXozc5R-1712863141857)]

Selenium 爬虫

qq_52030218的博客

10-11

1110

一些网站通过 JavaScript 动态加载内容，这时普通的请求库无法抓取完整数据。通过 Selenium 这样的浏览器自动化工具，可以抓取这些网站的内容。高端爬虫的一个常见问题是反爬虫机制，如 IP 封锁或用户代理识别。可以通过使用代理池和随机用户代理来避免这些问题。是一个强大的爬虫框架，适用于大型项目，支持高效抓取并行化、自动处理请求错误，还可以轻松扩展成分布式爬虫。一些网站通过验证码或登陆页面进行限制。这样可以在多个机器上运行爬虫，自动去重和分发任务。这样的队列系统，实现分布式的任务分发和管理。

python+selenium+PhantomJS抓取网页动态加载内容

12-20

在Python编程中，Selenium是一个强大的自动化测试工具，可以模拟真实用户与网页的交互，尤其适合处理JavaScript动态加载的内容。PhantomJS是一个无头浏览器，它可以在没有图形界面的情况下运行，这对于网页抓取和...

Python爬虫教程：使用Selenium抓取动态网页内容

最新发布

2201_76125261的博客

04-10

845

Selenium是一个开源的自动化测试工具，用于Web应用的自动化操作。Selenium支持多种编程语言，包括Python、Java、C#等。它能够模拟浏览器中的各种操作，如点击、输入、滚动、抓取页面内容等。通过使用Selenium，爬虫可以在实际的浏览器环境中运行，从而获取动态加载的数据。在本文中，我们详细介绍了如何使用Selenium抓取动态加载的网页内容。通过模拟浏览器的行为，Selenium能够处理JavaScript渲染的页面，抓取动态加载的内容。

使用 Selenium 抓取 JavaScript 渲染的数据——全面实战教程

2201_76125261的博客

01-18

732

通过本教程，您已经学会了如何使用Selenium抓取动态渲染的JavaScript数据。Selenium强大的浏览器自动化功能可以帮助我们应对各种复杂的动态网页抓取需求。掌握显式等待、模拟用户操作、翻页抓取等技术后，您可以更加高效地抓取并处理大规模的动态网页数据。

超详细Python教程——使用Selenium抓取网页动态内容

月流霜的专栏

07-21

3598

Selenium 是一个自动化测试工具，利用它可以驱动浏览器执行特定的行为，最终帮助爬虫开发者获取到网页的动态内容。简单的说，只要我们在浏览器窗口中能够看到的内容，都可以使用 Selenium 获取到，对于那些使用了 JavaScript 动态渲染技术的网站，Selenium 会是一个重要的选择。下面，我们还是以 Chrome 浏览器为例，来讲解 Selenium 的用法，大家需要先安装 Chrome 浏览器并下载它的驱动。Chrome 浏览器的驱动程序可以在ChromeDriver官网。

爬取网页数据所用到的方法-Selenium篇

nikolas的博客

08-08

3705

爬取网页数据所遇到的坑总结

爬虫系列：在 Python 中用 Selenium 执行 Javascript

oHuangBing的博客

04-08

3661

Selenium是一个强大的网络数据采集工具，其最初是为网站自动化测试而开发的。近几年，它还被广泛用于获取精确的网站快照，因为它们可以直接运行在浏览器上。Selenium 可以让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。 Selenium 自己不带浏览器，它需要与第三方浏览器结合在一起使用。例如，如果你在 Firefox 上运行 Selenium，可以直接看到一个 Firefox 窗口被打开，进入网站，然后执行你在代码中设置的动作。虽然这样可以看得更清楚，但是我更.

小猪的Python学习之旅 —— 5.使用Selenium抓取JavaScript动态生成数据的网页

热门推荐

Coder-Pig的猪栏

01-09

18万+

小猪的Python学习之旅 —— 5.使用Selenium抓取JavaScript动态生成数据的网页标签： Python 引言之前抓的妹子图都是直接抓Html就可以的，就是Chrome的浏览器F12的 Elements页面结构和Network抓包返回一样的结果。后面在抓取一些网站(比如煎蛋，还有那种小网站的时候)就发现了，Network那里抓包获取的数据没有，而Elem...

java使用selenium-java抓取js异步请求的数据

liaomingwu的专栏

04-08

2556

java使用selenium-java抓取js异步请求的数据

Selenium&&PhantomJS获取网站中的JS返回的数据

ZCC的专栏

09-10

4286

一、安装Selenium模块 pip install selenium Selenium 是一套完整的Web应用程序测试系统，包含了测试的录制、编写及运行和测试的并行处理。二、安装PhantomJS(官网下载：http://phantomjs.org/）下载后放在python安装目录，和python.exe在一个文件夹下。Selenium和Phanto

pyspider+selenium 获取js 加载内容（附源码）

LouisLee 的博客

08-21

3436

背景最近一直在搞论坛的爬虫。爬着爬着，突然遇到一个论坛的反爬虫机制比较强。例如：http://bbs.nubia.cn/forum-64-1.html。当访问这个页面时，第一次返回的不是html页面，而是加密后的js内容，然后写入cookie，等待设置好的时间，然后跳转到真正的页面。如下图：加密混淆后的js 想到的方案：分析...

使用selenium抓取JS动态生成的页面

Inner Peace

07-31

1万+

在抓取网页数据时，传统jsoup方案只能对静态页面有效，而有些网页数据往往是js生成的，所以这时候需要其它的方案。首先的思路是分析js程序，对js的请求进行再次抓取，这适合于特定的页面抓取，要做到对不同目标URL的通用性，比较麻烦。第二种思路，也是比较成熟的做法是利用第三方的驱动渲染页面，然后下载。这里介绍一下第二种实现思路。 Selenium是一个模拟浏览器的自动化测试工具，它

python使用selenium提取script节点的内容不成功的解决方法

xiemanR的专栏

01-15

9948

使用selenium提示script节点的内容失败的二种解决方法。