BeautifulSoup类的基本元素
基本元素 | 说明 |
---|
Tag | 标签最基本的信息组织单元,分别用<>和</>开头结尾 |
Name | 标签的名字,格式为Tag.name,如p.name |
Attributes | 标签的属性,字典组织类型,格式为Tag.attrs |
NavigableString | 标签内非属性字符串,即<>和</>之间的字符串,格式为Tag.string |
Comment | 标签内字符串的注释部分,一种特殊的Comment类型 |
标签树的遍历
下行遍历
属性 | 说明 |
---|
Tag.contents | 子节点列表,将Tag的所有儿子节点存入列表 |
Tag.children | 子节点迭代类型,用于循环遍历儿子节点 |
Tag.descendants | 子孙节点迭代类型,用于循环遍历子孙节点 |
上行遍历
属性 | 说明 |
---|
Tag.parant | 节点的父亲类型 |
Tag.parents | 节点先辈标签的迭代类型 |
平行遍历
属性 | 说明 |
---|
Tag.next_sibling | 节点的下一平行节点标签 |
Tag.next_siblings | 迭代类型,后续所有的平行节点类型 |
Tag.previous_sibing | 节点的前一平行节点标签 |
Tag.previous_sibings | 迭代类型,之前所有的平行节点类型 |
** 注意 :** 平行遍历只发生在同一父亲节点下的各节点之间
举例
for child in soup.body.children:
print(child)
BeautifulSoup类的find方法