Python 爬虫 BeautifulSoup(bs4)库

本文介绍了如何使用Python的requests库获取网页源代码,然后通过BeautifulSoup解析HTML或XML,讲解了Tag对象的使用、属性和方法,以及DOM树的概念和在DOM树中的操作。同时推荐了VSCode和JupyterNotebook配合DataWrangler进行爬虫开发的便捷性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python requests

requests库请参考这篇文章

端一碗 beautiful soup

BeautifulSoup(简称bs4)是一个Python库,用于从HTML或XML文件中提取数据。它创建一个解析树,可以方便地访问和修改HTML/XML文档的内容,或者提取其中的数据。
BeautifulSoup支持多种解析器,如Python标准库中的html.parser、lxml和html5lib,每种解析器都有其优势和使用场景。
安装:

pip install bs4

解析

当使用requests获取到一个网页的源代码(HTML)后,就可以把源代码传入给BeautifulSoup进行解析,不同的解析器应对不同情况,但是通常情况下使用 html.parser 就能应大多数情况
示例:

def get_soup(url:str):
    """
    从给定的URL获取BeautifulSoup对象。
    参数:
    - url: 要获取BeautifulSoup对象的网址。
    返回:
    - BeautifulSoup对象,如果请求成功。
    - None,如果请求失败。
    """
    html = get_html(url)
    if html is not None:
        return bs4.BeautifulSoup(html, "html.parser")
    else:
        return None

通过get_html(自己封装的代码)获取一个网页html源代码,然后通过bs4.BeautifulSoup进行解析,之后就可以通过这个soup进行爬取信息

自己封装的get_html

def safe_request(url, max_retries=3, delay=5)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值