《2018年5月26日》【连续228天】
标题:信息组织和提取方法;
内容:
1.基于bs4的HTML格式化和编码:
.prettify
2.信息标记的三种形式:
XML,
JSON:有类型键值对,键值对嵌套用{ , }
YAML:无类型键值对 , |表达整块数据
3.信息提取方法:
方法一:完整解析信息的标记形式,再提取关键信息;
XML, JSON, YAML
需要标记解析器 如:bs4库的标签树遍历;
优点:信息解析准确;
缺点:繁琐
方法二:无视标记形式,直接搜索关键信息;
融合方法:结合形式解析与搜索方法,提取关键信息;
XML JSON YAML 搜索
需要标记解析器及文本查找函数
基于bs4库的HTML内容查找方法:
.find_all