BeautifulSoup简介
BeautifulSoup是python的一个第三方库,在爬虫中,起着网页解析器的作用,可以对下载好的网页进行页面元素分析,提取出有价值的数据,相比较Lxml,BeautifulSoup的性能会差一些,毕竟是纯python,但是BeautifulSoup解析网页的支持度貌似会好一些。
安装
附上bs4官网(https://www.crummy.com/software/BeautifulSoup/)
windows
首先进入pip的安装目录,位于Scripts文件夹中
然后执行pip install beautifulsoup4
等待安装完成
Linux
$ sudo apt-get python-bs4(python2)
$ sudo apt-get python3-bs4(python3)
等待安装完成
简单用法
举个例子
可以通过find_all()方法
找到相关区域,然后通过get_text()访问标签下面的内容,也可以读取href属性中的内容
更多的方法使用在官方说明文档上都有,官网上也有示例
小白发帖,欢迎批评指正!!
Python爬虫:BeautifulSoup的安装与基础使用
本文介绍了Python第三方库BeautifulSoup的基本概念,它作为网页解析器在爬虫中用于解析和提取网页数据。相较于Lxml,BeautifulSoup虽然性能稍弱,但对网页支持更广泛。文章提供了BeautifulSoup的安装教程,包括访问官网链接和在Windows环境下通过pip安装的步骤。
1509

被折叠的 条评论
为什么被折叠?



