必应搜索,获取标题以及url
import time
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import urllib.parse
def get_content(driver, url):
driver.get(url)
time.sleep(sleep_time)
targets = driver.find_elements_by_xpath("//li[@class='b_algo']/h2/a")
infos = []
for t

该代码段展示了一个Python脚本,它利用Selenium库来爬取必应搜索引擎的搜索结果。脚本首先定义了一个函数`get_content`,用于获取每个搜索结果的标题、域名和URL。然后在`main`函数中,根据提供的关键词和页码,调用`get_content`进行爬取,并将结果保存到指定文件中。爬取过程中,它还检查是否存在下一页并进行翻页。最后,结果被写入以当前时间命名的文本文件。
最低0.47元/天 解锁文章
1479

被折叠的 条评论
为什么被折叠?



