228day(信息组织和提取方法)

本文介绍了使用bs4库进行HTML格式化与编码的方法,并探讨了信息标记的形式包括XML、JSON和YAML。此外还讨论了两种信息提取方法:一种是通过解析标记来提取关键信息,另一种是直接搜索关键信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《2018年5月26日》【连续228天】

标题:信息组织和提取方法;

内容:

1.基于bs4的HTML格式化和编码:
.prettify

2.信息标记的三种形式:

XML,    

JSON:有类型键值对,键值对嵌套用{  ,  }

YAML:无类型键值对 , |表达整块数据

3.信息提取方法:

方法一:完整解析信息的标记形式,再提取关键信息;

XML, JSON, YAML

需要标记解析器  如:bs4库的标签树遍历;

优点:信息解析准确;

缺点:繁琐

方法二:无视标记形式,直接搜索关键信息;

融合方法:结合形式解析与搜索方法,提取关键信息;

XML JSON YAML  搜索

需要标记解析器及文本查找函数

 

基于bs4库的HTML内容查找方法:

.find_all

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值