python爬虫-Beautiful Soup学习笔记

Beautiful Soup可以从HTML或XML文件中提取数据,是一个解析、遍历、维护“标签树”的库。

① 安装

win10平台,以管理员身份运行cmd,执行

pip install beautifulsoup4

如果同时安装了python2和python3,分别修改python.exe名字为python2.exe和python3.exe,然后分别重新安装pip,再使用pip2或pip3即可。

② 官方文档

官方文档

③ 导入库

from bs4 import BeautifulSoup

④ 选择解释器

传入一个 html 文档,soup是获得文档的对象。然后,文档被转换成 Unicode ,并且 HTML 的实例都被转换成 Unicode 编码。然后,Beautiful Soup 选择最合适的解析器来解析这段文档,如果手动指定解析器那么 Beautiful Soup 会选择指定的解析器来解析文档。
图片来源MOOCBIT

⑤ 基本元素种类

Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象。
来源MOOCBIT
也有的认为name和attributes不作为基本元素,然后将BeautifulSoup单独列出来,表示一个文档的全部内容。

举例:

from bs4 import BeautifulSoup

html = """
<html><head><title>This is a demo </title></head>
<body>
<p class="title"><b>The demo's story.</b></p>
<p class="course">This is my blog.
<a href="http://blog.youkuaiyun.com/zhangffyy" class="py1" id="link1"><!-- Comment --></a>.</p>
</body></html>
"""

soup = BeautifulSoup(html,"html.parser") 

print(soup.title)                #tag标签
tag = soup.p
print(tag.name)               #tag的name
print(tag.attrs)                #tag的attrs
print(tag.string)            #tag的内容
print(soup.a.string)         #注释

输出结果:

<title>This is a demo </title>
p
{'class': ['title']}
The demo's story.
 Comment 

⑥ 搜索标签树

(1)find_all( name , attrs , recursive , text , **kwargs )
find_all() 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件。

(2)find( name , attrs , recursive , text , **kwargs )
与 find_all() 方法的区别是 find_all() 方法的返回结果是包含一个元素的列表,而 find() 方法直接返回结果。

⑦ 遍历标签树

来源MOOCBIT

推荐网站:
静觅 » Python爬虫利器二之Beautiful Soup的用法
MoocBit

【资源说明】 1.项目代码功能经验证ok,确保稳定可靠运行。欢迎下载使用!在使用过程中,如有问题或建议,请及时私信沟通。 2.主要针对各个计算机相关专业,包括计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师或企业员工使用。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈! 本文介绍了基于QEM(Quadric Error Metrics,二次误差度量)的优化网格简化算法的C和C++实现源码及其相关文档。这一算法主要应用于计算机图形学领域,用于优化三维模型的多边形数量,使之在保持原有模型特征的前提下实现简化。简化的目的是为了提高渲染速度,减少计算资源消耗,以及便于网络传输等。 本项目的核心是网格简化算法的实现,而QEM作为该算法的核心,是一种衡量简化误差的数学方法。通过计算每个顶点的二次误差矩阵来评估简化操作的误差,并以此来指导网格简化过程。QEM算法因其高效性和准确性在计算机图形学中广泛应用,尤其在实时渲染和三维打印领域。 项目代码包含C和C++两种语言版本,这意味着它可以在多种开发环境中运行,增加了其适用范围。对于计算机相关专业的学生、教师和行业从业者来说,这个项目提供了丰富的学习和实践机会。无论是作为学习编程的入门材料,还是作为深入研究计算机图形学的项目,该项目都具有实用价值。 此外,项目包含的论文文档为理解网格简化算法提供了理论基础。论文详细介绍了QEM算法的原理、实施步骤以及与其他算法的对比分析。这不仅有助于加深对算法的理解,也为那些希望将算法应用于自己研究领域的人员提供了参考资料。 资源说明文档强调了项目的稳定性和可靠性,并鼓励用户在使用过程中提出问题或建议,以便不断地优化和完善项目。文档还提醒用户注意查看,以获取使用该项目的所有必要信息。 项目的文件名称列表中包含了加水印的论文文档、资源说明文件和实际的项目代码目录,后者位于名为Mesh-Simplification-master的目录下。用户可以将这些资源用于多种教学和研究目的,包括课程设计、毕业设计、项目立项演示等。 这个项目是一个宝贵的资源,它不仅提供了一个成熟的技术实现,而且为进一步的研究和学习提供了坚实的基础。它鼓励用户探索和扩展,以期在计算机图形学领域中取得更深入的研究成果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值