4、数据采集与提取:Beautiful Soup、XPath和CSS选择器的应用

数据采集:Beautiful Soup与XPath实战

数据采集与提取:Beautiful Soup、XPath和CSS选择器的应用

1. Beautiful Soup的工作原理及使用

1.1 Beautiful Soup工作原理

Beautiful Soup将网页的HTML转换为其内部表示,该模型与浏览器创建的DOM(文档对象模型)具有相同的表示形式。它还提供了强大的功能来导航DOM中的元素,例如使用标签名作为属性来查找元素。不过,这种导航方式相对不灵活,高度依赖于HTML结构。随着网页更新,结构可能改变,即使页面外观相同,也可能破坏爬虫代码。

1.2 使用Beautiful Soup的find方法搜索DOM

1.2.1 准备工作

如果想将以下代码复制到ipython中,可以在02/02_bs4_find.py中找到示例代码。

1.2.2 操作步骤
  1. 启动一个新的iPython会话并加载行星页面:
import requests
from bs4 import BeautifulSoup
html = requests.get("http://localhost:8080/planets.html").text
soup = BeautifulSoup(html, "lxml")
  1. 查找 <table> 元素:
table = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值