Python_通过Python查找有效的网址信息

本文介绍如何使用Python的requests库检查网址的有效性,以support.apple.com为例,通过改变URL尾部数字获取不同页面,并利用正则表达式提取标题及URL,存储到列表并保存至本地。同时,探讨了Python中的with语句、requests库与urllib.request的区别,以及时间日期格式的相关知识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        使用Python的requests库,对网页返回状态码status_code进行判断,确认网址是否有效,以support.apple.com为例,遍历其中的部分网址,例如:

https://support.apple.com/zh-cn/HT210643

https://support.apple.com/zh-cn/HT211147

https://support.apple.com/zh-cn/HT204455

       根据以上三个url地址可以看出,只需改变最后的几个数字即可获取到不同的地址。通过正则表达式匹配对应地址中的标题,将标题及对应地址信息存储到列表中,并保存至本地。

       使用Python源码如下:

import re
import time
import requests

class GetLinksTitles():

    def links_titles(self):
        links_titles = []
        for i in range(211150, 211185):
            url = "https://support.apple.com/zh-cn/HT" + str(i)
            r = requests.get(url=url)
            if r.status_code == 200:
                html = r.content.decode('utf-8')
                pattern = r'<title lang="zh-CN">(.*?) - Apple 支持</title>'
                title = re.findall(pattern, html)
                links_titles.append(url)
                links_titles.append(title)
                print("地址:%s 标题:%s"%(url, title))
            else:
                print("不存在:%d"%(i))

        return links_titles

    def save_links_titles(self, links_titles):
        file = open('GetLinksTitles' + time.strftime('%Y%m%d%H%M%
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Tingshuo2009

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值