Python requests
requests库请参考这篇文章
端一碗 beautiful soup
BeautifulSoup(简称bs4)是一个Python库,用于从HTML或XML文件中提取数据。它创建一个解析树,可以方便地访问和修改HTML/XML文档的内容,或者提取其中的数据。
BeautifulSoup支持多种解析器,如Python标准库中的html.parser、lxml和html5lib,每种解析器都有其优势和使用场景。
安装:
pip install bs4
解析
当使用requests获取到一个网页的源代码(HTML)后,就可以把源代码传入给BeautifulSoup进行解析,不同的解析器应对不同情况,但是通常情况下使用 html.parser
就能应大多数情况
示例:
def get_soup(url:str):
"""
从给定的URL获取BeautifulSoup对象。
参数:
- url: 要获取BeautifulSoup对象的网址。
返回:
- BeautifulSoup对象,如果请求成功。
- None,如果请求失败。
"""
html = get_html(url)
if html is not None:
return bs4.BeautifulSoup(html, "html.parser")
else:
return None
通过get_html(自己封装的代码)获取一个网页html源代码,然后通过bs4.BeautifulSoup进行解析,之后就可以通过这个soup进行爬取信息
自己封装的get_html
def safe_request(url, max_retries=3, delay=5)