Python爬虫案例（多线程+消息队列初阶）_python 爬虫任务队列-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_61529962/article/details/135829137

BeautifulSoup

Beautiful Soup 是一个用于从HTML或XML文件中提取数据的Python库。它提供了一种非常方便的方式来浏览文档、搜索特定标签或内容，以及对标签进行修改。Beautiful Soup的主要作用是帮助解析和提取HTML/XML文档中的数据，使得在Python中处理Web数据变得更加简单。

常用方法：

BeautifulSoup(markup, 'html.parser'): 创建一个 BeautifulSoup 对象，用于解析 HTML 或 XML 文档。markup 是要解析的字符串或文件对象。

find(name, attrs, recursive, string): 查找文档中第一个符合条件的标签。

find_all(name, attrs, recursive, string): 查找文档中所有符合条件的标签，返回一个列表。

select(selector): 使用 CSS 选择器语法查找元素。

tag.text 或 tag.get_text(): 获取标签内的文本内容，包括所有子孙节点的文本。

tag.string: 获取标签内的直系文本内容，如果有多个子节点则返回 None。

find_all(class_='classname'): 查找具有特定 CSS 类名的所有标签。

Threading

threading 是 Python 标准库中用于线程编程的模块。线程是一种轻量级的执行单元，允许程序并发执行多个任务。threading 模块提供了创建、管理和同步线程的工具，可以用于在多任务环境中执行并行的操作

常用方法：

threading.Thread(target, args, kwargs): 创建一个新线程。target 参数指定线程要执行的目标函数，args 和 kwargs 用于传递给目标函数的参数。

start(): 启动线程，调用线程的 run 方法。

join(timeout=None): 等待线程终止。如果指定了 timeout 参数，最多等待指定的秒数。

Requests

requests 是一个用于发送 HTTP 请求的 Python 库，它简化了与 Web 服务的交互。requests 库支持多种 HTTP 方法，包括 GET、POST、PUT、DELETE 等，并提供了便捷的接口来处理请求和响应。

常用方法：

response = requests.get('https://www.example.com')

response = requests.post('https://www.example.com/post-endpoint', data={'key1': 'value1', 'key2': 'value2'})<