使用selenium爬取飞卢小说网排行榜的小说标题

Selenium爬虫：飞卢小说网青春校园排行榜XPath解析,

最新推荐文章于 2024-11-11 15:07:26 发布

原创

最新推荐文章于 2024-11-11 15:07:26 发布 · 520 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节 #selenium #爬虫

本文介绍如何使用Selenium集成爬虫工具抓取飞卢小说网青春校园排行榜的小说标题，特别强调了XPath选择器的选择和在处理飞卢小说网特定页面结构时的注意事项。

飞卢小说网的青春校园排行榜链接是：青春校园小说排行榜_飞卢小说网

使用selenium集成化爬虫工具，它的xpath跟scrapy等有一定区别，scrapy等需要使用get()或者extract()等函数来获取dom节点，而selenium就不需要了。

飞卢小说网的排行榜中，每个小说块的class都是一样的，这样获取整页的div块的xpath就很好写了。

app.py

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time

service = Service(executable_path="./driver/chromedriver.exe")
driver = webdriver.Chrome(service=service)
url = "https://b.faloo.com/y_7_0_0_0_0_1_1.html"
driver.get(url=url)
try:
    boxs = driver.find_elements(By.XPATH, '//div[@class="TwoBox02_02"]')
    for box in boxs:
        h1 = box.find_element(By.XPATH, './/h1[@class="fontSize17andHei"]')
        title = h1.get_attribut