目录
相关库介绍
-
BeautifulSoup
- Beautiful Soup 是一个用于从HTML或XML文件中提取数据的Python库。它提供了一种非常方便的方式来浏览文档、搜索特定标签或内容,以及对标签进行修改。Beautiful Soup的主要作用是帮助解析和提取HTML/XML文档中的数据,使得在Python中处理Web数据变得更加简单。
- 常用方法:
BeautifulSoup(markup, 'html.parser')
: 创建一个 BeautifulSoup 对象,用于解析 HTML 或 XML 文档。markup
是要解析的字符串或文件对象。find(name, attrs, recursive, string)
: 查找文档中第一个符合条件的标签。find_all(name, attrs, recursive, string)
: 查找文档中所有符合条件的标签,返回一个列表。select(selector)
: 使用 CSS 选择器语法查找元素。tag.text
或tag.get_text()
: 获取标签内的文本内容,包括所有子孙节点的文本。tag.string
: 获取标签内的直系文本内容,如果有多个子节点则返回 None。find_all(class_='classname')
: 查找具有特定 CSS 类名的所有标签。
-
Threading
threading
是 Python 标准库中用于线程编程的模块。线程是一种轻量级的执行单元,允许程序并发执行多个任务。threading
模块提供了创建、管理和同步线程的工具,可以用于在多任务环境中执行并行的操作- 常用方法:
threading.Thread(target, args, kwargs)
: 创建一个新线程。target
参数指定线程要执行的目标函数,args
和kwargs
用于传递给目标函数的参数。start()
: 启动线程,调用线程的run
方法。join(timeout=None)
: 等待线程终止。如果指定了timeout
参数,最多等待指定的秒数。
-
Requests
requests
是一个用于发送 HTTP 请求的 Python 库,它简化了与 Web 服务的交互。requests
库支持多种 HTTP 方法,包括 GET、POST、PUT、DELETE 等,并提供了便捷的接口来处理请求和响应。- 常用方法:
- response = requests.get('https://www.example.com')
- response = requests.post('https://www.example.com/post-endpoint', data={'key1': 'value1', 'key2': 'value2'})<