正则 如何从大量(链接)中爬取主要信息详解(图片,视频等)

本文探讨了如何使用正则表达式从复杂字符串中提取URL信息,并对比了两种不同的处理方法:一种是通过字符串切片和列表操作,另一种是利用正则表达式的分组功能。文章详细介绍了每种方法的实现步骤,以及它们在实际应用中的优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

列1:
"""
s2 = "http://www.interoem.com/messageinfo.asp?id=35`
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415"
"""

import re
s2 = """http://www.interoem.com/messageinfo.asp?id=35`
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415"""


#小白型代码
ret = re.findall(r"http://.*?\.asp",s2)
print(ret)
str = s2.split("?")
list1 = list()
list1.append(str[0])
del str[0]
del str[len(str)-1]
for i in str:
    j = i.split("\n")
    list1.append(j[1])
print(list1)


#大牛型代码
p = r"(http://.*?/).*"
print(re.sub(p, lambda x: x.group(1),s2))

方法1:

简单的字符串进行处理,使用两次split,切割出来的列表,然后进行对列表处理。

字符串的处理是工作中常创建的操作想知道更多请关注

方法2:

使用分组提取主要信息,group(1)就是 要提取出来的网址

使用匿名函数经行处理的到处理后的数据 直接得到数据

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值