xpath学习

浅*默

于 2023-03-13 10:12:53 发布

阅读量679

点赞数

分类专栏：爬虫文章标签： python 开发语言网络爬虫

本文链接：https://blog.youkuaiyun.com/qq_51153463/article/details/129485131

版权

爬虫专栏收录该内容

2 篇文章

订阅专栏

该代码示例展示了如何利用Python的requests库获取网页内容，并结合lxml的etree模块使用XPath表达式来解析HTML，提取表格中的电影票房数据，包括排名(num)、年份(year)、电影名称(name)和票房(money)信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import requests
from lxml import etree

url = 'http://www.boxofficecn.com/boxoffice2019'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.46"}
resp = requests.get(url,headers=headers)
#print(resp.text)查看发现爬取了页面源代码
page = etree.HTML(resp.text)
trs = page.xpath("//table/tbody/tr")[1:-1]
#print(trs)
for tr in trs:
    num = tr.xpath('./td[1]/text()')
    year = tr.xpath('./td[2]/text()')
    name = tr.xpath('./td[3]/text()')
    money = tr.xpath('./td[4]/text()')
    if name:
        "".join(name)  # 这是处理不正常数据的合理方案
    print(num, year, name, money)