bs4基本使用

原创已于 2025-06-04 15:01:11 修改 · 288 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

于 2025-05-31 18:09:55 首次发布

爬虫专栏收录该内容

11 篇文章

订阅专栏

数据解析

何为数据解析

概念：可以将爬取到的数据中指定的数据进行单独提取。
数据解析通用原理：
- 在一张页面中，想要解析的数据是存在于相关的html的标签中。
- 可以先将指定的标签进行定位，然后可以将该标签中展示的数据进行提取。
爬虫编码流程:
- 指定url
- 发起请求
- 获取页面源码数据
- 数据解析
- 持久化存储
python中可以实现数据解析的技术：
- 正则表达式（复杂度高）
- bs4（python独有，学习成本较低）
- xpath（通用性最强，最重要）

bs4

环境安装：

pip install bs4
pip install lxml

bs4数据解析的流程:

创建一个BeautifulSoup对象，把被解析的数据加载到该对象中。
调用BeautifulSoup对象相关的属性或者方法进行标签定位和数据提取

# 创建一个BeautifulSoup对象，把被解析的数据加载到该对象中
from bs4 import BeautifulSoup
f = open('test.html', 'r', encoding='utf-8')
soup = BeautifulSoup(f, 'lxml')

# 标签定位
tag = soup.标签名

# 提取内容
txt = tag.string