Python爬虫之网页解析器(Beautiful Soup)

这篇博客介绍了如何使用Python的Beautiful Soup库进行网页解析。首先讲解了Beautiful Soup的安装,接着阐述了在Python中如何操作这个库,包括创建BeautifulSoup对象、搜索节点的方法如find_all和find,以及访问节点信息。最后,通过一个实际练习,展示了如何从一个test.html文件中提取div模块内的a标签数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Beautiful Soup第三方库的安装

pip install Beautifulsoup4

python中使用BeautifulSoup

import bs4
# 或者
from bs4 import BeautifulSoup

网页解析器语法

在这里插入图片描述

  • 创建BeautifulSoup对象
from bs4 import BeautifulSoup
# 根据html网页字符串创建BeautifulSoup对象
soup = BeautifulSoup(
					 html_doc, # htmll文档字符串
					 'html.parser', # html解析器
					 from_encoding='utf8' # html文档的编码
)
  • 搜索节点(find_all,find)
find_all(name,attrs,string)
# name:节点名称
# attrs:节点属性
# string:节点的文本

# 查找所有标签为a的节点
soup.find_all('a')

# 查找所有标签为a,链接符合/view/test123.html形式的节点
soup.find_all('a',href='/view/test123.html')

# 查找所有标签为div,class为abc,文字为spider的节点
soup.find_all('div',class_='abc',string="spider")
  • 访问节点信息
# 得到节点: <a href="test123.html">Spider</a>

# 获取查找到的节点的标签名称
node.name

# 获取查找到的a节点的href属性
node['href']

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值