嗅事百科抓取段子的两种方法--BeautifulSoap抓取并解析网页流程

本文详细介绍了如何利用BeautifulSoup库抓取嗅事百科上的段子。通过find_all()和select()方法,结合标签的属性进行筛选,确保精准定位到段子内容。在实际操作中,需要注意标签的选择以及属性的限制,以避免抓取到不必要的信息。文章还提醒了在使用select()方法时,选择器的正确写法以及在Python2.7环境下运行的注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、BeautifulSoap

1.首先必须要导入bs4库,创建BeautifulSoap对象

#coding=utf-8
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'lxml')   #html 为下载的网页,lxml为解析器

2.BeautifulSoap主要掌握三种方法

  • find_all('tag')    搜索当前所有的tag标签的集合
  • find("tag")        返回一个标签(这个方法用的少)
  • select("")           可以按标签查找,用的多是按标签逐层查找筛选元素

二、使用BeautifulSoup提取网页内容的一些技巧

1.find_all()    方法中单独的标签名,如a ,会提取网页中所有的 a 标签,这里要确保是我们所需要的链接a , 一般都不是,需要加上条件(就是标签的属性,加上限制筛选),如果这一及标签没有属性,最好往上一级找。

https://www.qiushibaike.com/text/,链接:段子戳我,抓取原创笑话段子。

(话说小白在这上面找半天才看到段子藏在span里面,我一直觉得自己有点智障=_=)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值