python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...

最新推荐文章于 2021-06-18 01:27:02 发布

shcxhbc

最新推荐文章于 2021-06-18 01:27:02 发布

阅读量124

点赞数

文章标签： python从html拿到数据

本文介绍如何利用Python的BeautifulSoup库从HTML文件中提取Celex编号、原始语言和程序类型。通过示例代码，作者展示了如何找到并打印这些信息，同时解决了在处理auth_lang时获取纯文本内容的问题。尽管Celex编号和原始语言已正确提取，但程序类型仍显示为完整的HTML标签，而非预期的文本内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我需要提取的数据可以在不同的标题下找到。

这是我到目前为止：

from BeautifulSoup import BeautifulSoup

ecj_data = open("data\ecj_1.html",'r').read()

soup = BeautifulSoup(ecj_data)

celex = soup.find('h1')

auth_lang = soup('ul', limit=14)[13].li

procedure = soup('ul', limit=20)[17].li

print "Celex number:", celex.renderContents(),

print "Authentic language:", auth_lang

print "Type of procedure:", procedure

我将所有数据存储在本地，这就是它打开文件ecj_1.html的原因。

Celex数字和Authentic语言有点好用。

celex回归

"Celex number:

61977J0059"

auth_lang返回"Authentic language:

French"

我只需要h1标签的内容(不是最后的中断)。

[另外，我需要auth_lang只返回“法语”，而不是

-tags。] 这不再是问题了。我意识到我可以在“auth_lang”的末尾添加“.text”。

另一方面，程序返回：

Type of procedure:

Type of procedure:

Reference for a preliminary ruling

这是非常错误的，因为我只需要它返回“参考初步裁决”。

有什么办法可以实现吗？

第二次编辑：我用celex = soup('h1', limit=2)[0]替换了celex = soup.find('h1') ，并将.text添加到print celex中。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。