selenium必应搜索，获取标题以及url

最新推荐文章于 2024-06-28 17:51:46 发布

原创

最新推荐文章于 2024-06-28 17:51:46 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#selenium

该代码段展示了一个Python脚本，它利用Selenium库来爬取必应搜索引擎的搜索结果。脚本首先定义了一个函数`get_content`，用于获取每个搜索结果的标题、域名和URL。然后在`main`函数中，根据提供的关键词和页码，调用`get_content`进行爬取，并将结果保存到指定文件中。爬取过程中，它还检查是否存在下一页并进行翻页。最后，结果被写入以当前时间命名的文本文件。

必应搜索，获取标题以及url

import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException

import urllib.parse

def get_content(driver, url):
    driver.get(url)
    time.sleep(sleep_time)
    targets = driver.find_elements_by_xpath("//li[@class='b_algo']/h2/a")
    infos = []
    for t