python爬虫学习笔记-3

最新推荐文章于 2023-02-14 18:40:23 发布

原创最新推荐文章于 2023-02-14 18:40:23 发布 · 368 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #学习

数据爬取专栏收录该内容

3 篇文章

订阅专栏

这篇博客介绍了Python爬虫学习的进阶内容，包括如何获取网页源码和解析源码中特定元素信息的步骤。通过引入bs4库，读者可以学习如何根据需求提取网页信息，为进一步的爬虫操作如发送邮件或写入文本奠定基础。

前言

在爬虫已经可以刷新网页的基础上，再进行功能扩展，进行获取网页源码的爬虫编写，通过获取网页信息后就可以通过对网页信息的判断进行其他操作，诸如发送邮件或者写入文本等。

提示：以下是本篇文章正文内容，下面案例可供参考

一、需要导入的包

在此前已经导入的包基础上，再加上一个bs4

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup

二、使用步骤

1.获取网页源码

代码如下（示例）：

resp=driver.page_source #获取源码
soup=BeautifulSoup(resp,"html.parser") # 解析源码
print(soup.getText) #打印源码

2.获取源码中的元素信息

代码如下（示例）：
查找某个标签中的全部信息可以用以下的代码

table = soup.find_all("td") #获取所有“td”标签的源码信息
table = soup.find_all("div") #获取所有“div”标签的源码信息

查找某个特定标签可以再加一些限制，如下所示

table = soup.find_all(attrs={'class':'item-1'}) #获取“div”标签中“class”为'item-1'的“div”源码信息
table = soup.find_all(attrs={'id':'item-1'}) #获取“div”标签中“id”为'item-1'的“div”源码信息

以此类推，根据自己的需求获取对应的代码块

完整代码

import time
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
driver_options = Options()
driver_options.add_argument('--headless') #不打开浏览器显示
driver_options.add_argument('--disable-gpu') #禁止使用gpu为网页加速
driver_options.add_argument('lang=zh_CN.utf-8')
#设置浏览器标识符
driver_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36')
# 创建Chrome实例 。
driver = webdriver.Chrome(options=driver_options)  # 需要 下载 对应浏览器 驱动到 python 安装目录
try:
    Test='https://www.baidu.com' #测试链接，此处可以换成任意网址
    print("已创建实例")
    resp=driver.page_source
    # 解析源码
    soup=BeautifulSoup(resp,"html.parser")
    table = soup.find_all("td")
except Exception as e:
    print(e)