数据采集与提取:Beautiful Soup、XPath和CSS选择器的应用
1. Beautiful Soup的工作原理及使用
1.1 Beautiful Soup工作原理
Beautiful Soup将网页的HTML转换为其内部表示,该模型与浏览器创建的DOM(文档对象模型)具有相同的表示形式。它还提供了强大的功能来导航DOM中的元素,例如使用标签名作为属性来查找元素。不过,这种导航方式相对不灵活,高度依赖于HTML结构。随着网页更新,结构可能改变,即使页面外观相同,也可能破坏爬虫代码。
1.2 使用Beautiful Soup的find方法搜索DOM
1.2.1 准备工作
如果想将以下代码复制到ipython中,可以在02/02_bs4_find.py中找到示例代码。
1.2.2 操作步骤
- 启动一个新的iPython会话并加载行星页面:
import requests
from bs4 import BeautifulSoup
html = requests.get("http://localhost:8080/planets.html").text
soup = BeautifulSoup(html, "lxml")
- 查找
<table>元素:
table =
数据采集:Beautiful Soup与XPath实战
超级会员免费看
订阅专栏 解锁全文
56万+

被折叠的 条评论
为什么被折叠?



