pythonchallenge--3

本文探讨了如何使用正则表达式从网页源文件中提取特定信息,以解决网页爬虫中的实际问题,并通过实例展示了从网页获取网址的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题:http://www.pythonchallenge.com/pc/def/equality.html

好吧,看完题目我只知道一个小写字母和两边的大保镖,然后就不知道该怎么下去了,我表示我还不习惯做这种题目。

后来,看了别人的解释,才知道要从网页的源文件读取,坑爹坑到家了,我根本就没没往这方面想。然后就知道是要正则表达式来查找字符串了。

可是正则表达式的结果是:

['qIQNlQSLi', 'eOEKiVEYj', 'aZADnMCZq', 'bZUTkLYNg', 'uCNDeHSBj', 'kOIXdKBFh', 'dXJVlGZVm', 'gZAGiLQZx', 'vCJAsACFl', 'qKWGtIDCj']
云里雾里,这可以知道网页的地址?没办法。只能经过非思考手段才知道怎么说了,最后居然是取中间的小写字母,这是谜中谜?

代码如下:

from urllib import *
import re

src = urlopen(r'http://www.pythonchallenge.com/pc/def/equality.html')
for i in range(21): #排除前面没用的21行
    src.readline()
str1 = src.read()
src.close()
pat = re.compile(r'[^A-Z][A-Z]{3}[a-z][A-Z]{3}[^A-Z]')
rst = re.findall(pat,str1)
a = []
for i in rst:
    a.append(i[4])
print(''.join(a))

所以下一题的网址为: http://www.pythonchallenge.com/pc/def/linkedlist.php

转载于:https://www.cnblogs.com/arbboter/archive/2012/08/12/4225245.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值