爬取网页时利用BeautifulSoup如何提取标签

本文通过示例代码介绍了如何使用BeautifulSoup库在爬取网页时提取HTML标签,如'a'标签的类名,'i'标签的class属性,以及文本内容。强调了提取属性、标签和文本的注意事项,包括必须与标签直接对应,标签包含的内容以及属性的值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里以一段源代码为例:

<a href="" class="toarticle c-blue">
	<i class="icon-success-font"></i>发布成功并查看文章&gt;
	<div class="copy-btn c-blue underline">复制链接</div> 
</a> 

如果tag=bs.find(‘a’),且print(tag)的结果就是上图:

  1. 想要输出:toarticle c-blue
    c
  2. 想要输出:icon-success-font
    tag.find(‘i’)[‘class’]
  3. 想要输出:发布成功并查看文章
        复制链接
    tag.text
  4. 想要输出:复制链接
    tag.find(‘div’).text
    总结:
    1:提取属性时,必须与标签直接对应,如:提取icon-success-font时,必须在tag[‘class’]的中间添加.find(‘i’);
    2:提取标签的结果是:标签头+中间的所有内容+标签尾;
    3:提取属性的结果是:属性的值;
    4:提取文本的结果是:被提取的标签下的所有文本都会被提取出来;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值