python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...

本文介绍如何利用Python的BeautifulSoup库从HTML文件中提取Celex编号、原始语言和程序类型。通过示例代码,作者展示了如何找到并打印这些信息,同时解决了在处理auth_lang时获取纯文本内容的问题。尽管Celex编号和原始语言已正确提取,但程序类型仍显示为完整的HTML标签,而非预期的文本内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我需要提取的数据可以在不同的标题下找到。

这是我到目前为止:

from BeautifulSoup import BeautifulSoup

ecj_data = open("data\ecj_1.html",'r').read()

soup = BeautifulSoup(ecj_data)

celex = soup.find('h1')

auth_lang = soup('ul', limit=14)[13].li

procedure = soup('ul', limit=20)[17].li

print "Celex number:", celex.renderContents(),

print "Authentic language:", auth_lang

print "Type of procedure:", procedure

我将所有数据存储在本地,这就是它打开文件ecj_1.html的原因。

Celex数字和Authentic语言有点好用。

celex回归

"Celex number:

61977J0059"

auth_lang返回"Authentic language:

French"

我只需要h1标签的内容(不是最后的中断)。

[另外,我需要auth_lang只返回“法语”,而不是

-tags。] 这不再是问题了。 我意识到我可以在“auth_lang”的末尾添加“.text”。

另一方面,程序返回:

Type of procedure:

Type of procedure:

Reference for a preliminary ruling

这是非常错误的,因为我只需要它返回“参考初步裁决”。

有什么办法可以实现吗?

第二次编辑:我用celex = soup('h1', limit=2)[0]替换了celex = soup.find('h1') ,并将.text添加到print celex中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值