【Python爬虫】如何优雅地使用装饰器爬虫

【Python爬虫】如何优雅地使用装饰器爬虫

Intro 介绍

在使用python进行爬虫网络请求时,对于不同的接口往往会设计不同的函数
。为了提高代码的复用性,以及尽可能提高运行效率,我们可以通过定义装饰器来请求响应及除错。

Req. 依赖

  • python3
  • httpx: pip install httpx

Common 常规用法

import httpx

# Decorator 定义装饰器
def request(func):

    def wrapper(*arg, **kwarg):
        req = func(*arg, **kwarg)
        client = httpx.Client()
        ret = client.send(req)
        return ret
    return wrapper

# 定义爬虫函数
@request
def getUsers(method, url, params):
    return httpx.Request(method, url, params=params)

# 执行程序
data = getUsers('GET', 'http://your_host:port/getUsers',{'user_query': 'username'})
print(data.text)

Async 协程

通过协程来使用装饰器时,需要额外借助functools来对异步函数进行装饰

import httpx
import asyncio
import functools

def asyncRequest(client):
    def inner(func):
        @functools.wraps(func)
        async def wrapper(*arg,**kwarg):
            req = func(*arg, **kwarg)
            ret = await client.send(req)
            return ret
        return wrapper
    return inner

client = httpx.AsyncClient()

@asyncRequest(client)
def asyncGetUsers(method, url, params):
    return httpx.Request(method, url, params=params)

data = asyncio.run(getUsers('GET', 'http://your_host:port/getUsers',{'user_query': 'username'}))

print(data.text)

Exception 异常处理

可以在装饰器函数中加入异常处理,以提高代码复用性

try:
	# ...
	ret = client.send(req)
	# ...
except httpx.RemoteProtocolError as err:
    print(f"HTTP request failed: Server protocol error; {err}")
except httpx.ReadTimeout as err:
	print(f"HTTP request failed: Response timeout; {err}")
except httpx.RequestError as err:
	print(f"HTTP request failed: RequestError;{err}")
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值