数据爬取和反爬取是一场攻防战,虽然整体技术难度不深,但非常有意思。
python爬虫工具
Python下面用于做爬虫的工具很多:
•专门的爬虫的框架:
Scrapy: 一个基于Python的开源网络爬虫框架,用于快速高效地提取网站数据。
BeautifulSoup: 一个用于解析HTML和XML文档的Python库,可以帮助用户从网页中提取数据。
•网页自动化工具:
Selenium: 一个自动化测试工具,也可以用于网页爬取,可以模拟用户在浏览器中的操作,如点击、输入等。
playwright: 通样可以用于网页爬取和数据提取,它提供了丰富的功能和灵活的操作方式,使得开发者可以轻松地编写复杂的网页爬取脚本。
•http请求工具:
Requests: 一个简单易用的HTTP库,可以用于发送HTTP请求和获取网页数据。
HTTPX: 一个基于Python的现代、高性能的HTTP客户端库,用于发送HTTP请求和处理响应。
我刚好前段时间得到了一个爬虫的需求,基于需求简单介绍一下使用。
HTTPX调用接口
•安装
pip install httpx
pip install h2
之所以选择 HTTPX 是因为Web 框架是用异步实现的,爬取数据是Web项目的一个子需求,最重要的是可以通过调用接口获取想要的数据。
import asyncio
import httpx
async def main():
async with httpx.AsyncClient(verify=False, http2=T