python bs4 入门

python bs4 BeautiSoup入门

在这里插入图片描述
在这里插入图片描述

结果:

在这里插入图片描述

prettify():

在这里插入图片描述

直接打印相关内容

在这里插入图片描述

有多个相同标签时

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

找到三个href

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

bs4 对象种类

在这里插入图片描述

bs4 tag标签

在这里插入图片描述
在这里插入图片描述

找标签属性——attrs

在这里插入图片描述

NavigableString可导航的字符串

在这里插入图片描述

soup对象

在这里插入图片描述

comment 注释

在这里插入图片描述
在这里插入图片描述

遍历文档树

在这里插入图片描述

contents chlidren descendents

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

string strings stripped strings–把多余空格去掉

string——获取标签里面的内容

在这里插入图片描述

strings——返回是一个生成器对象用过来获取多个标签内容

在这里插入图片描述

stripped_strings——和strings基本一致 但是它可以把多余的空格去掉

在这里插入图片描述

遍历父节点

在这里插入图片描述

parent

在这里插入图片描述

html的父节点是整个soup对象

在这里插入图片描述

parents

在这里插入图片描述
在这里插入图片描述

遍历兄弟节点

在这里插入图片描述

next_sibling 下一个兄弟节点

在这里插入图片描述
在这里插入图片描述

previous_sibling 上一个兄弟节点

在这里插入图片描述

搜索数——findAll&find_all

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

find()找一个

在这里插入图片描述

find_all()找全部以列表形式返回

在这里插入图片描述
在这里插入图片描述

find_all只找某几条

在这里插入图片描述

1.class_

在这里插入图片描述
在这里插入图片描述

attrs{:}

在这里插入图片描述

多重约束条件

在这里插入图片描述

获取标签内部信息

在这里插入图片描述
在这里插入图片描述

过滤第一条——用切片[1:]

在这里插入图片描述

### 关于BeautifulSoup4 Python库的使用教程 #### 安装 要开始使用 BeautifulSoup4 (简称 BS4),需要先完成安装。可以通过 `pip` 工具进行安装,命令如下: ```bash pip install beautifulsoup4 ``` 如果是在 Anaconda 环境下工作,则可以使用以下命令[^2]: ```bash conda install -c anaconda beautifulsoup4 conda install lxml ``` #### 导入模块并创建 Beautiful Soup 对象 在导入 BS4 后,需加载目标 HTML 或 XML 数据,并将其传递给 `BeautifulSoup` 构造函数以生成解析对象。以下是具体实现方式: ```python from bs4 import BeautifulSoup # 示例HTML字符串 html_doc = "<html><head><title>Sample Page</title></head><body><p>Hello World!</p></body></html>" soup = BeautifulSoup(html_doc, 'lxml') # 使用'lxml'作为解析器 ``` 这里推荐使用 `'lxml'` 解析器,因为它速度较快且功能强大。 #### 访问基础数据结构 一旦有了 Beautiful Soup 对象,就可以访问其内部的数据结构。例如: - **获取标题**: 可通过 `.title` 属性直接读取 `<title>` 标签的内容。 - **获取特定标签**: 如 `.p` 表示第一个 `<p>` 标签。 - **获取标签内的文本内容**: 调用 `.string` 或者更通用的方法 `.get_text()` 来提取纯文本部分。 下面是一些例子: ```python print(soup.title) # 输出:<title>Sample Page</title> print(soup.p) # 输出:<p>Hello World!</p> print(soup.title.string) # 输出:Sample Page print(soup.get_text()) # 提取出整个文档中的所有文本内容 ``` #### 搜索与过滤 BS4 支持多种搜索机制帮助定位所需节点。常用方法有: - **find_all(name)**: 查找所有符合条件的标签列表。 - **find(name)**: 返回匹配的第一个标签实例。 - **select(css_selector)**: 利用 CSS 选择器语法筛选元素。 举个实际的例子说明这些操作的应用场景吧: 假设有一个简单的网页片段如下所示, ```html <ul class="menu"> <li id="item1">Item 1</li> <li id="item2">Item 2</li> </ul> ``` 我们可以这样查询它里面的项目项们: ```python items = soup.find_all('li') for item in items: print(item.text) selected_item = soup.select_one('#item1').text print(selected_item) ``` #### 复杂情况下的处理技巧 当遇到嵌套层次较深或者属性复杂的标记时,可能需要用到更加精细的选择条件。比如限定某些关键词参数来缩小范围;又或者是针对子级关系做进一步探索等等。这都需要灵活运用前面提到的各种检索手段组合起来解决问题。 --- ### 总结 以上就是有关于Python第三方扩展包——BeautifulSoup4的基础入门指南及其主要特性概述[^1][^2][^3]。希望对你有所帮助!
评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值