Python爬虫用Selenium抓取js生成的文件(一)

本文介绍了如何使用Python的Selenium库抓取看云网站中由JavaScript生成的电子书链接。首先,解析首页获取最大页码,然后逐页抓取书籍链接,进入书籍详情页判断是否可下载并下载所有格式。通过Chrome浏览器驱动模拟用户操作,通过XPath定位元素进行点击。文章还提到了在爬取过程中可能遇到的问题及解决方案。

简介

我最近在看关于计算机的一些书籍,发现了这个电子书清单:计算机开放电子书汇总, 和大家分享一下. 我在下载其中的书籍时被导向了这个很好的计算机电子书网站KanCloud看云,里面有非常多的实用的编程方面的电子书,很多是该网站自己用html生成的,格式多样,包括pdf,epub,mobi. 在此表示感谢,强烈推荐.

于是,我准备用之前的静态网页爬虫来批量下载,发现书籍的链接是javascript生成的,而且难以解析(我还会写一篇抓取可以解析js的网站的博客). 这时我们可以用selenium来模拟浏览器的动作,例如下拉或者点击button之类的. 然后在看云网站里模拟下载.

要得到一个可以稳健运行的爬虫, 需要考虑一些细节问题, 因此分两篇来说,本篇先给出一个示例,了解工作的过程.

任务简述

进入网站后,看云网站界面如下图所示:

首页

要下载全部电子书,我们需要抓取70个page, 每个page有12本书,每本书有一个单独的页面,而且有的书籍不提供下载,有的可以下载多种格式.

不能下载

可以下载

因此, 我们的任务如下:
1. 解析首页,得到最大页码
2. 解析单个页面,得到该页书籍链接列表
3. 进入书籍页面
* 判断是否可以下载

### 如何使用 PythonSelenium 进行网络爬虫抓取小说内容 #### 1. 基础环境准备 为了能够顺利运行 Selenium 爬虫程序,需要先安装必要的依赖库并配置好驱动程序。以下是具体操作: - 安装 `selenium` 库: 可通过 pip 工具安装该库,命令如下所示: ```bash pip install selenium ``` - 配置 WebDriver: 根据目标网站使用的浏览器版本下载对应的 WebDriver 文件,并将其放置到系统的 PATH 路径中或者与 Python 所在目录相同的文件夹内[^1]。 #### 2. 示例代码展示 下面提供段简单的示例代码用于演示如何利用 Python 结合 Selenium抓取网页上的小说章节及其正文部分: ```python from selenium import webdriver import time # 初始化 Chrome 浏览器对象 driver = webdriver.Chrome() try: # 访问目标网址 driver.get('https://example.com/novel') # 替换为目标小说站点链接 # 给予定时间让页面完全加载完毕 time.sleep(3) # 获取所有章节列表项 chapter_elements = driver.find_elements_by_css_selector('.chapter-list a') for element in chapter_elements[:5]: # 提取前五个作为例子 title = element.text # 获取章节名称 link = element.get_attribute('href') # 获取跳转地址 print(f'正在读取 {title}') # 切换至对应章节详情页 driver.execute_script("window.open(arguments[0]);", link) handles = driver.window_handles driver.switch_to.window(handles[-1]) # 等待新窗口中的数据渲染完成 time.sleep(2) content_element = driver.find_element_by_id('content') text_content = content_element.text.strip() # 清理多余空白字符 with open(f'{title}.txt', 'w', encoding='utf8') as f: f.write(text_content) # 将每章保存成独立 txt 文件 finally: driver.quit() ``` 上述代码片段实现了访问指定的小说主页、提取各章节链接以及依次打开这些链接并将其中的文字内容存储下来的功能[^3]。 #### 3. 关键技术解析 - **动态加载处理**:对于采用 JavaScript 实现异步更新的现代 Web 页面来说,传统的静态 HTML 解析方法可能无法满足需求。而 Selenium 正是因为其可以直接模拟真实用户的浏览行为从而解决了这难题[^4]。 - **元素定位方式**:Selenium 支持多种查找 DOM 元素的方法,如 id, name, class name, tag name, XPath 表达式等等,在实际开发过程中可以根据具体情况灵活选用最合适的手段来精确定位所需的数据节点[^2]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值