python爬虫学习笔记-3

这篇博客介绍了Python爬虫学习的进阶内容,包括如何获取网页源码和解析源码中特定元素信息的步骤。通过引入bs4库,读者可以学习如何根据需求提取网页信息,为进一步的爬虫操作如发送邮件或写入文本奠定基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

在爬虫已经可以刷新网页的基础上,再进行功能扩展,进行获取网页源码的爬虫编写,通过获取网页信息后就可以通过对网页信息的判断进行其他操作,诸如发送邮件或者写入文本等。


提示:以下是本篇文章正文内容,下面案例可供参考

一、需要导入的包

在此前已经导入的包基础上,再加上一个bs4

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup 

二、使用步骤

1.获取网页源码

代码如下(示例):

resp=driver.page_source #获取源码
soup=BeautifulSoup(resp,"html.parser") # 解析源码
print(soup.getText) #打印源码

2.获取源码中的元素信息

代码如下(示例):
查找某个标签中的全部信息可以用以下的代码

table = soup.find_all("td") #获取所有“td”标签的源码信息
table = soup.find_all("div") #获取所有“div”标签的源码信息

查找某个特定标签可以再加一些限制,如下所示

table = soup.find_all(attrs={'class':'item-1'}) #获取“div”标签中“class”为'item-1'的“div”源码信息
table = soup.find_all(attrs={'id':'item-1'}) #获取“div”标签中“id”为'item-1'的“div”源码信息

以此类推,根据自己的需求获取对应的代码块

完整代码

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
driver_options = Options()
driver_options.add_argument('--headless') #不打开浏览器显示
driver_options.add_argument('--disable-gpu') #禁止使用gpu为网页加速
driver_options.add_argument('lang=zh_CN.utf-8')
#设置浏览器标识符
driver_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')
# 创建Chrome实例 。
driver = webdriver.Chrome(options=driver_options)  # 需要 下载 对应浏览器 驱动到 python 安装目录
try:
    Test='https://www.baidu.com' #测试链接,此处可以换成任意网址
    print("已创建实例")
    resp=driver.page_source
    # 解析源码
    soup=BeautifulSoup(resp,"html.parser")
    table = soup.find_all("td")
except Exception as e:
    print(e)




总结

在此前代码的基础上通过bs4库获取页面源码,并根据自己的需要获取对应标签中的信息,大家可以根据自己的需要,以一推三编写自己的代码,我在此给大家提供一个思路

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值