python解析本地html文件,如何使用Python和lxml解析本地html文件?

本文探讨了使用Python和lxml库解析本地HTML文件时遇到的问题,并提供了具体的代码实例。作者在尝试使用requests获取本地文件时遇到了错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我正在使用python中的本地html文件,我正在尝试使用lxml来解析文件。出于某种原因,我无法正确加载文件,而且我不确定这是否与在本地计算机上没有设置http服务器,etree用法或其他内容有关。如何使用Python和lxml解析本地html文件?

这里是我的代码:

from lxml import html

import requests

page = requests.get('C:\Users\...\sites\site_1.html')

tree = html.fromstring(page.text)

test = tree.xpath('//html/body/form/div[3]/div[3]/div[2]/div[2]/div/div[2]/div[2]/p[1]/strong/text()')

print test

是我得到的回溯写着:

C:\Python27\python.exe "C:/Users/.../extract_html/extract.py"

Traceback (most recent call last):

File "C:/Users/.../extract_html/extract.py", line 4, in

page = requests.get('C:\Users\...\sites\site_1.html')

File "C:\Python27\lib\site-packages\requests\api.py", line 69, in get

return request('get', url, params=params, **kwargs)

File "C:\Python27\lib\site-packages\requests\api.py", line 50, in request

response = session.request(method=method, url=url, **kwargs)

File "C:\Python27\lib\site-packages\requests\sessions.py", line 465, in request

resp = self.send(prep, **send_kwargs)

File "C:\Python27\lib\site-packages\requests\sessions.py", line 567, in send

adapter = self.get_adapter(url=request.url)

File "C:\Python27\lib\site-packages\requests\sessions.py", line 641, in get_adapter

raise InvalidSchema("No connection adapters were found for '%s'" % url)

requests.exceptions.InvalidSchema: No connection adapters were found for 'C:\Users\...\sites\site_1.html'

Process finished with exit code 1

你可以看到它与“连接适配器”有关,但我不确定这意味着什么。

2015-09-24

rdevn00b

+0

为什么不从一个本地HTML文件的最小示例开始?让你更容易为你学习,你可以在这里发布内容,让每个人都更容易遵循。 –

+0

不幸的是,该文件是巨大的,我担心简化它可能产生程序的输出。 –

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值