温馨提示: 安装bs4模块的命令是:pip install bs4 BeautifulSoup 是从bs4模块中导入出来的 安装BeautifulSoup4的命令:pip install BeautifulSoup4 -i https://pypi.douban.com/simple pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple 1、BeautifulSoup模块 在程序中对于数据的解析和提取需要使用BeautifulSoup模块,安装是可以使用pip install bs4 用法: bs对象=BeautifulSoup(要解析的文本,解析器) 解析: “要解析的文本”——必须是字符串或者是变量 “解析器”——用来标识解析器,我们要用的是python解析器中的“html.parser”(它不是唯一的解析器, 但是相对来说比较简单,其它的还有“lxml”等) 2、BeautifulSoup中提取数据的两大知识点: find()与find_all() 方法 作用 用法 举例 find() 对首个符合要求的进行筛选 BeautifulSoup对象名.find(标签,属性) bs对象.find(div,class="show_list") find_all() 对所有满足要求的进行筛选 BeautifulSoup对象名.find_all(标签,属性) bs对象.find_all(div,class="show_list") 注意:以上用法举例中的标签和属性可以直接用一个,或者两个同时用都行 Tag对象 bs对象=BeautifulSoup(要解析的文本,解析器) item=bs对象.find(标签,属性) item1=bs对象.find_all(标签,属性) 其中的item就是一个Tag类对象,而item1是一个Tag对象的列表 Tag对象常用的三种属性以及方法 属性/方法 作用 Tag.find()/Tag.find_all() 提取Tag对象中的Tag对象 Tag.text 提取Tag中的文本 Tag["属性名"] 属性参数:属性名,提取这个属性的值 其实在bs4的官方文档中,关于find()函数和find_all()函数的用法不止标签和属性两种方法: find(Tag,attributes,recursive,text,keywords) find_all(Tag,attributes,recursive,text,keywords)