Beautiful Soup 4.4.0 文档: https://beautifulsoup.readthedocs.io/zh_CN/latest/
Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为4种:Tag, NavigableString, BeautifulSoup,Comment.
1. Tag 对象
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag) # <class 'bs4.element.Tag'>
Tag 对象有很多方法和属性,其中最重要的是 name 和 attributes
(1) name 属性
每个 tag 都有自己的名字,通过 .name 来获取
tag.name # u'b'
"""
由于这个 tag 对象是由b元素解析来的
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
所以这个 tag.name 是 b
"""
(2)Attributes 属性
一个 tag 可能有很多属性,tag <b class="boldest"> 有一个"class"的属性,值为"boldest",tag 属性的操作方法