前言
在爬虫已经可以刷新网页的基础上,再进行功能扩展,进行获取网页源码的爬虫编写,通过获取网页信息后就可以通过对网页信息的判断进行其他操作,诸如发送邮件或者写入文本等。
提示:以下是本篇文章正文内容,下面案例可供参考
一、需要导入的包
在此前已经导入的包基础上,再加上一个bs4
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup
二、使用步骤
1.获取网页源码
代码如下(示例):
resp=driver.page_source #获取源码
soup=BeautifulSoup(resp,"html.parser") # 解析源码
print(soup.getText) #打印源码
2.获取源码中的元素信息
代码如下(示例):
查找某个标签中的全部信息可以用以下的代码
table = soup.find_all("td") #获取所有“td”标签的源码信息
table = soup.find_all("div") #获取所有“div”标签的源码信息
查找某个特定标签可以再加一些限制,如下所示
table = soup.find_all(attrs={'class':'item-1'}) #获取“div”标签中“class”为'item-1'的“div”源码信息
table = soup.find_all(attrs={'id':'item-1'}) #获取“div”标签中“id”为'item-1'的“div”源码信息
以此类推,根据自己的需求获取对应的代码块
完整代码
import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
driver_options = Options()
driver_options.add_argument('--headless') #不打开浏览器显示
driver_options.add_argument('--disable-gpu') #禁止使用gpu为网页加速
driver_options.add_argument('lang=zh_CN.utf-8')
#设置浏览器标识符
driver_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')
# 创建Chrome实例 。
driver = webdriver.Chrome(options=driver_options) # 需要 下载 对应浏览器 驱动到 python 安装目录
try:
Test='https://www.baidu.com' #测试链接,此处可以换成任意网址
print("已创建实例")
resp=driver.page_source
# 解析源码
soup=BeautifulSoup(resp,"html.parser")
table = soup.find_all("td")
except Exception as e:
print(e)
总结
在此前代码的基础上通过bs4库获取页面源码,并根据自己的需要获取对应标签中的信息,大家可以根据自己的需要,以一推三编写自己的代码,我在此给大家提供一个思路