一.
1.BeautifulSoup:灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。
2.安装:pip3 install beautifulsoup4
pycharm 里beautifulsoup4 的安装
二.用法讲解
1.解析库
2.基本使用
3.标签选择器(速度快,但不能满足html文档的解析)
(1)选择元素
(2).获取名称(标签名称)
(3).获取属性
(4).获取标签内容
(5).嵌套选择
(6).子节点和子孙节点
(7).获取子节点的方法2.children
(8).获取子节点,子孙的方法.descendants
(9)获取父节点.parent
获取祖先节点.parents
(10).获取兄弟节点
4.标准选择器
find_all (name,attrs,recursive,text,**kwargs)
可根据标签名,属性,内容查找文档
(1)name
输出ul标签里的所有li标签
(2)attrs
结果:
(3)text:根据文本的内容进行选择
5.find方法:(name,attrs,recursive,text,**kwargs)
find方法返回单个元素,find-all返回所有元素
其他的用法类似
6.CSS选择器:通过select()直接传入css选择器即可完成选择
(1)获取属性
(2)获取内容(标签里的文本)
总结:
推荐使用lxml解析库,必要是选用html.parser
标签选择功能弱,但速度快
建议使用find(),find-all()查询匹配单个或多个结果
如果对css选择器熟悉,建议使用select()
记住常用的获取属性和文本值的方法。