爬虫 -- httpx封装

原创

已于 2022-06-14 16:12:26 修改 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python #chrome

于 2022-02-15 14:29:41 首次发布

本文介绍了一个使用 asyncio 和 ddddocr 的异步爬虫，它能进行网页抓取并利用 OCR 技术识别内容。核心内容包括随机生成 User-Agent，处理GET和POST请求，以及通过 DdddOcr 进行文字识别。

代码

# -*- coding: utf-8 -*-
# @Author   : zbz

import asyncio
import random

import ddddocr
import httpx


class AsyncSpider:
    def __init__(self, ocr=False):
        self.ocr = ddddocr.DdddOcr() if ocr else None

    def get_ua(self) -> str:
        a = random.randint(55, 62)
        c = random.randint(0, 3200)
        d = random.randint(0