lxml读取本地html文件,如何使用Python和lxml来解析本地html文件?

在尝试使用lxml解析本地HTML文件时遇到问题,代码中通过requests.get方法加载本地路径导致InvalidSchema异常。错误源于requests库用于HTTP请求,而非处理本地文件。解决方案是直接打开文件并传递给lxml的etree.parse方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我在python中使用本地html文件,我正在尝试使用lxml来解析文件.由于某种原因,我无法正确加载文件,我不确定这是否与我的本地计算机上没有设置http服务器,etree用法或其他内容有关.

这是我的代码:

from lxml import html

import requests

page = requests.get('C:\Users\...\sites\site_1.html')

tree = html.fromstring(page.text)

test = tree.xpath('//html/body/form/div[3]/div[3]/div[2]/div[2]/div/div[2]/div[2]/p[1]/strong/text()')

print test

我得到的回溯读取:

C:\Python27\python.exe "C:/Users/.../extract_html/extract.py"

Traceback (most recent call last):

File "C:/Users/.../extract_html/extract.py", line 4, in

page = requests.get('C:\Users\...\sites\site_1.html')

File "C:\Python27\lib\site-packages\requests\api.py", line 69, in get

return request('get', url, params=params, **kwargs)

File "C:\Python27\lib\site-packages\requests\api.py", line 5

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值