python解析本地html文件,如何使用Python和lxml解析本地html文件？

最新推荐文章于 2024-12-07 20:30:00 发布

KarmaXXXL

最新推荐文章于 2024-12-07 20:30:00 发布

阅读量815

点赞数

文章标签： python解析本地html文件

本文探讨了使用Python和lxml库解析本地HTML文件时遇到的问题，并提供了具体的代码实例。作者在尝试使用requests获取本地文件时遇到了错误。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我正在使用python中的本地html文件，我正在尝试使用lxml来解析文件。出于某种原因，我无法正确加载文件，而且我不确定这是否与在本地计算机上没有设置http服务器，etree用法或其他内容有关。如何使用Python和lxml解析本地html文件？

这里是我的代码：

from lxml import html

import requests

page = requests.get('C:\Users\...\sites\site_1.html')

tree = html.fromstring(page.text)

test = tree.xpath('//html/body/form/div[3]/div[3]/div[2]/div[2]/div/div[2]/div[2]/p[1]/strong/text()')

print test

是我得到的回溯写着：

C:\Python27\python.exe "C:/Users/.../extract_html/extract.py"

Traceback (most recent call last):

File "C:/Users/.../extract_html/extract.py", line 4, in

page = requests.get('C:\Users\...\sites\site_1.html')

File "C:\Python27\lib\site-packages\requests\api.py", line 69, in get

return request('get', url, params=params, **kwargs)

File "C:\Python27\lib\site-packages\requests\api.py", line 50, in request

response = session.request(method=method, url=url, **kwargs)

File "C:\Python27\lib\site-packages\requests\sessions.py", line 465, in request

resp = self.send(prep, **send_kwargs)

File "C:\Python27\lib\site-packages\requests\sessions.py", line 567, in send

adapter = self.get_adapter(url=request.url)

File "C:\Python27\lib\site-packages\requests\sessions.py", line 641, in get_adapter

raise InvalidSchema("No connection adapters were found for '%s'" % url)

requests.exceptions.InvalidSchema: No connection adapters were found for 'C:\Users\...\sites\site_1.html'

Process finished with exit code 1

你可以看到它与“连接适配器”有关，但我不确定这意味着什么。

2015-09-24

rdevn00b

+0

为什么不从一个本地HTML文件的最小示例开始？让你更容易为你学习，你可以在这里发布内容，让每个人都更容易遵循。 –

+0

不幸的是，该文件是巨大的，我担心简化它可能产生程序的输出。 –

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。