使用BeautifulSoup解析html页面

最新推荐文章于 2025-05-15 08:55:30 发布

原创最新推荐文章于 2025-05-15 08:55:30 发布 · 455 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

python 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了如何使用Python的BeautifulSoup库来解析HTML文档。通过具体的代码示例展示了如何安装及使用该库，包括如何查找特定的HTML标签及其内容。

1、有很多开源库以及python自动的htmlparser库都可以解析html，简单的功能，用哪个都一样，看个人习惯，此处简单介绍一下BeautifulSoup的用法，详细的用法可以参考官方文档[url]http://www.crummy.com/software/BeautifulSoup/[/url]
2、去上面的网址下载、解压安装，都有说明，我在python2.7的环境下面安装soup4一直报错，最后只好换成soup3的版本，具体原因没查明
3、代码示例


from BeautifulSoup import BeautifulSoup
import urllib2
content = urllib2.urlopen(url).read()
soup = BeautifulSoup(content)
构造soup对象之后，就可以按照soup的语法搜索标签了
sub_soup = soup.find(attrs={"class" : re.compile("a_con_text cont")})
sub_soup = soup.find(attrs={"class" : "t_f"})
sub_content = sub_soup.getText()
这个getText返回的是sub_soup标签之内的所有内容以及子标签的内容，不包括标签