实现一个安全的网页内容抓取函数

     这段代码定义了一个名为getHTMLText的函数,用于从指定 URL 获取 HTML 文本内容。函数尝试 发送 HTTP 请求并处理可能出现的异常,最后返回网页的 HTML 内容或错误提示。主程序中,代码调用这个函数获取百度首页的 HTML 内容并打印输出。

代码结构分析

  • 导入模块:导入了requests库,用于发送 HTTP 请求。
  • 定义函数getHTMLText(url)函数接收一个 URL 作为参数。
  • 异常处理:使用try-except块捕获并处理可能出现的异常。
  • 请求处理:设置超时时间为 30 秒,使用raise_for_status()检查请求是否成功。
  • 编码处理:使用apparent_encoding确定网页的正确编码。
  • 主程序:调用函数并打印结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值