html没有内容怎么爬,Beautifulsoup---复杂的HTML爬取-优快云博客

本文详细介绍了在HTML网页内容复杂，标签隐藏时如何使用BeautifulSoup进行有效爬取。强调了如何通过标签属性定位信息，以及使用find()和findAll()方法筛选所需内容。同时，讲解了处理子标签、后代标签、兄弟标签和父级标签的方法，以及利用CSS选择器精准获取数据的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

假如你已经确定了目标内容,但是你的标签隐藏在一个复杂的HTML的标签里,带有许多没用的标签或HTML属性,如果网站管理员对网站稍作修改之后,你写好的爬虫就会失效,我们该怎么做呢?

把网站设置成移动设备的状态

寻找隐藏在JavaScript文件里的信息,要实现这一点,你可能需要查看网页加载的JavaScript文件

可以从URL里获取网页标题

考虑别的网站是否有同样的数据

Beautifulsoup的骚操作

每一个网站都会有层叠样式表(css),CSS可以让HTML差异化,可以使那些具有相同标签的内容有不同的样式,网络爬虫可以通过class属性区分出不同的标签,因为CSS能通过属性准确的呈现网站的样式.

我们来爬取www.500px.com网页的li标签class="static_nav__about"

from bs4 import BeautifulSoup

from urllib.request import urlopen

html = urlopen("https://500px.com")

bsObj = BeautifulSoup(html)

li_list = bsObj.findAll("li",{"class":"static_nav__about"})

for i in li_list:

print(i.get_text())

About

我们发现class="static_nav__about"这个类在li标签下只有一个内容.

在什么时候用get_text()?

.get_text()会把标签清除只留下文字内容,如果你需要的信息包含着大量的超链接,段落和标签的大段源代码,那么就不能用.get_text()因为它会把他们都清除,只留下文本信息,我们在使用beasoup爬取网站的时候最好保留标签.

BeautifulSoup的find()和findAll()

在我们使用BeautifulSoup的时候使用最多的就是这两个函数,它们可以通过标签的不同的属性轻松过滤掉HTML页面获取你想要的信息,查找需要的标签组或者单个标签.

语法:

findAll(tag,attributes,recursive,text,limit,keywords)

find(tag,attributes,recursive,text,keywords)

我们经常使用的参数是:tag和attributes,tag是标签名称,你可以传一个或者多个标签做参数例如:.findAll({"h1","h2","h3"}),属性参数attributes使用一个字典封装一个标签的若干属性和对应的值例如:.findAll("li",{"class":"static_nav__about"}),递归参数recursive是一个布尔值,如果为Ture就会查找所有子标签,如果是false就只会查找一级标签,默认为Ture.

文本参数Text是根据标签的文本内容去匹配,而不是用标签的属性,加入我们要查找文本里含有the这个单词的标签数量:

name_list = bsObj.findAll(text='the')

print(len(name_list))

范围参数limit,只有.findAll()方法有,find方法等价于findAll的limit参数为1,可以设置参数来获取前几项参数,但是是按照网页上的排序

关键字参数Keyword,可以选择指定属性的标签:

text = bsObj.findAll(id='text')

print(text[0].get_text())

注意

关键字参数在beautifulsoup中是一个不太完美的参数,因为在HTML中有些属性在python中是被保护的,例如class,所以尽量不要用关键词参数,利用其它的参数代替

BeautifulSoup的对象

BeautifulSoup对象

前面代码实例中的bsObj