python 爬虫基础:BeautifulSoup 库

Python爬虫与信息提取
本文为嵩天老师《Python网络爬虫与信息提取》课程的笔记精华,介绍使用BeautifulSoup进行网页解析的方法,包括标签解析、遍历及常用解析器如lxml的使用。

本文主要是 MOOC嵩天老师的《Python网络爬虫与信息提取》课的笔记以及总结。


Bs 的标准代码其实很简单,第一行开启bs
第二行 解析,第一个参数是要解析的html格式的信息,第二个是解析这锅汤要用到的解析器
在这里插入图片描述
BeautifulSoup 的基本元素
只要提供的是标签类型的解析内容,就可以进行解析
在这里插入图片描述
标签的基本结构,标签里面的域是以键值对的形式存在的
在这里插入图片描述
可以讲bs的作用理解为把标签树转化为beautiful型的变量
在这里插入图片描述
其他的一些解析器,lxml,xml解析器只要安装 一下lxml
在这里插入图片描述
bs中的基本元素
在这里插入图片描述
遍历标签的方式
在这里插入图片描述单元小结
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值