利用BeautifulSoup来解析HTML页面数据，筛选页面数据，去除广告，营销等信息。

最新推荐文章于 2023-01-26 13:15:06 发布

原创最新推荐文章于 2023-01-26 13:15:06 发布 · 555 阅读

0 ·

CC 4.0 BY-SA版权

Python 专栏收录该内容

42 篇文章

订阅专栏

本文介绍了如何在爬取网页数据时，利用BeautifulSoup库来解析HTML页面，有效地筛选出目标数据，并去除广告和无关的营销信息，确保获取到的内容是所需的信息。

在爬取页面数据的`转成HTML格式`数据时，

该网页上总是有`广告`，`营销`等不友好数据信息，

因此利用BS4`解析HTML`的能力来`筛选`想要的数据`信息`，

去除`不友好`的数据信息。

通过`BS4`常用的选取方式来选取不需要的，无关的信息，

在利用BS4的`extract()`函数来`去除`信息。


    def del_html_something(url):
    	"""
    	
        :param url:你想给予的URL链接 
        :return: 返回去除不友好信息后的页面数据
		"""
        soup = get_html_decode(url)
        for s in soup(id="id值"):
            s.extract()
        for s in soup(name="tag", attrs={"class": re.compile("class值")})::
            s.extract()
        return soup