Python黑板客爬虫闯关一

本文介绍了一个Python爬虫的实战案例,通过不断解析网页中的数字并更新URL来完成爬取任务。利用requests库获取网页内容,并使用正则表达式re提取关键数字。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

http://www.heibanke.com/lesson/crawler_ex00/

这是一个练习Python爬虫的非常好的网站。

进入该网址,如图

 在网址后边输入14901后,如图

根据网页给的数字不断更新网址后的数字,直到提示进入下一关为止。分析一下大概思路:用python获取网页,然后从网页的内容中提取这个数字,再把这个数字加在网址后面继续进行以上操作。在这,我们需要requests 和 正则表达式 re 。用requests库得到html页面,用re 库匹配其中的数字。

正则表达式如下:

re.findall(r'数字是([\d]{5})', html)

全部代码如下

import requests
import re


def get_html(url):
    html = requests.get(url)
    html.raise_for_status()
    html.encoding = html.apparent_encoding
    html = html.text
    number = re.findall(r'数字是([\d]{5})', html)
    return number[0]


def main():
    url = "http://www.heibanke.com/lesson/crawler_ex00/44513"
    while True:
        try:
            num = get_html(url)
            url = "http://www.heibanke.com/lesson/crawler_ex00/" + str(num)
            print(url)
        except IndexError:
            print(num)
            break


main()

运行结果如下:即得到最后一个网页数字,输入后进入第二关

 

点击链接 https://blog.youkuaiyun.com/Ljt101222/article/details/81562621 进入Python黑板客爬虫闯关二

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值