Web连接器

该文章介绍了一个简单的Python爬虫连接器模块的实现,包括定义URL和User-Agent,使用requests库发送请求,处理各种异常如403、404、503和Timeout,以及处理301重定向。当连接成功并返回状态码200时,会指定UTF-8编码返回HTML文本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分模块编写爬虫(一)

连接器模块基本思路:

  • 输入:url连接
  • 输出:url对应的html文本
  • 步骤:
    • 定义url和user-agent
    • 获取网页的requests对象
    • 捕获异常:
      • 403:禁止访问
      • 404:页面失效
      • 503:页面临时不可访问,可隔段时间重试
      • 301:网页重定向
      • Timeout:请求超时
    • 若连接成功,将返回状态码200
    • 指定requests对象的编码方式为utf-8
    • 返回页面的文本
import requests
from requests import ReadTimeout, ConnectionError, RequestException

# 定义url与请求头
URL = "http://www.hzau.edu.cn/"
#使用字典结构
HEADERS = {
    "User-Agent": "?Googlebot"
}

#web连接器模块,输入url,返回页面文本
def getHtml(url):
	global HEADERS
    try:
        result = req.get(url, HEADERS)
    except ConnectionError:
        return
    except ReadTimeout:
        return
    except RequestException:
        return
    else:
        if result.status_code == 200:
            # 指定网页的编码方式
            result.encoding = "utf-8"
            # 返回网页文本信息
            return result.text
        elif result.status_code == 404:
            return
        elif result.status_code == 403:
            return
            
if __name__ == "__main__":
	print(getHtml(URL))            
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值