网络爬虫之数据解析
XPath与lxml库
XPath基本语法
1、选取结点

2、谓语

3、通配符

使用方式
XPath使用方式:
使用 // 获取整个页面当中的元素,然后写标签名,然后再写谓语进行提取
# 使用lxml库解析HTML代码:
# 1、解析HTML字符串
html = etree.HTML(text)
# 2、解析HTML文件
# 指定解析器,默认为XML解析器
parser = etree.HTMLParser(encoding='utf-8')
html = etree.parse("index.html", parser=parser)
# 1、获取所有tr标签
trs = html.xpath("//tr")
# 2、获取第二个tr标签
trs = html.xpath("//tr[2]")
# 3、获取所有class等于even的tr标签
trs = html.xpath("//tr[@class='even']")
# 4、获取所有a标签的href属性
a = html.xpath("//a/@href")
注意事项

BeautifulSoup4库
主要的解析器:

soup = BeautifulSoup(html, 'lxml')
# 获取所有tr标签
trs = soup.find_all('tr')
# 获取第二个tr标签
trs = soup.find_all('tr', limit=2

本文探讨了网络爬虫中数据解析的两种常见方法:XPath与lxml库,以及BeautifulSoup4库的使用。XPath的基本语法包括选取结点、谓语和通配符,使用时需要注意特定事项。同时,文章还介绍了正则表达式及其在re模块中的应用,用于检索和替换匹配特定模式的文本。最后,对这些解析工具进行了对比分析。
最低0.47元/天 解锁文章
573

被折叠的 条评论
为什么被折叠?



