1、BeautifulSoup库与re正则表达式模块
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库;而re正则表达式模块进行各类正则表达式处理。
2、BeautifulSoup对象类型
Tag——HTML和XML文档中的标签
Navigable String——Tag当中的字符串
BeautifulSoup——BeautifulSoup对象表示的是一个文档的全部内容。很多时候可以把它当作一个特殊的Tag 对象
Comment——Navigable String的子类,输出的内容仍不包含注释符号。
解析BeautifulSoup与正则表达式
本文介绍Python中BeautifulSoup库与re正则表达式的使用,解析如何从HTML或XML文件中高效提取数据。包括BeautifulSoup的不同对象类型:Tag、NavigableString、BeautifulSoup和Comment的具体作用。
2117





