《2018年5月26日》【连续228天】
标题:信息组织和提取方法;
内容:
1.基于bs4的HTML格式化和编码:
.prettify
2.信息标记的三种形式:
XML,
JSON:有类型键值对,键值对嵌套用{ , }
YAML:无类型键值对 , |表达整块数据
3.信息提取方法:
方法一:完整解析信息的标记形式,再提取关键信息;
XML, JSON, YAML
需要标记解析器 如:bs4库的标签树遍历;
优点:信息解析准确;
缺点:繁琐
方法二:无视标记形式,直接搜索关键信息;
融合方法:结合形式解析与搜索方法,提取关键信息;
XML JSON YAML 搜索
需要标记解析器及文本查找函数
基于bs4库的HTML内容查找方法:
.find_all
本文介绍了使用bs4库进行HTML格式化与编码的方法,并探讨了信息标记的形式包括XML、JSON和YAML。此外还讨论了两种信息提取方法:一种是通过解析标记来提取关键信息,另一种是直接搜索关键信息。
1万+

被折叠的 条评论
为什么被折叠?



