1.Beautiful Soup提供的方法总结:
Beautiful Soup 将复杂 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为 4 种:
- Tag
- NavigableString
- BeautifulSoup
- Comment
1.Tag 是什么?通俗点讲就是 HTML 中的一个个标签
对于 Tag,它有两个重要的属性,是 name 和 attrs,下面我们分别来感受一下 name
2)NavigableString
既然我们已经得到了标签的内容,那么问题来了,我们要想获取标签内部的文字怎么办呢?很简单,用 .string 即可,
(3)BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容。大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag,我们可以分别获取它的类型,名称,以及属性来感受一下
(4)Comment
Comment 对象是一个特殊类型的 NavigableString 对象,其实输出的内容仍然不包括注释符号,但是如果不好好处理它,可能会对我们的文本处理造成意想不到的麻烦。

本文详细介绍了Beautiful Soup库如何与urllib2配合使用进行网络爬虫。内容涵盖了Beautiful Soup的基本元素如Tag、NavigableString、BeautifulSoup和Comment,以及遍历文档树的多种方法,如直接子节点、所有子孙节点、节点内容等。同时,文章还讨论了搜索文档树的各种方法,如find_all、find、CSS选择器等,为Python网络爬虫提供了实用的技巧和示例。
订阅专栏 解锁全文
560

被折叠的 条评论
为什么被折叠?



