在爬取页面数据的转成HTML格式数据时, 该网页上总是有广告,营销等不友好数据信息, 因此利用BS4解析HTML的能力来筛选想要的数据信息, 去除不友好的数据信息。 通过BS4常用的选取方式来选取不需要的,无关的信息, 在利用BS4的extract()函数来去除信息。 def del_html_something(url): """ :param url:你想给予的URL链接 :return: 返回去除不友好信息后的页面数据 """ soup = get_html_decode(url) for s in soup(id="id值"): s.extract() for s in soup(name="tag", attrs={"class": re.compile("class值")}):: s.extract() return soup id值:是根据去除的页面id来确定的,栗,id="footer"的footer tag:是根据去除页面的标签来选定,栗,div class:是属性,可以通过去除页面的标签来选定,栗,class,taye等等 class值:是根据标签中的class来确定的,栗,class="text/javascript"的text/javascript