正则如何从大量（链接）中爬取主要信息详解（图片，视频等）

最新推荐文章于 2024-05-24 20:20:37 发布

原创最新推荐文章于 2024-05-24 20:20:37 发布 · 715 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#IT #python #编程

本文探讨了如何使用正则表达式从复杂字符串中提取URL信息，并对比了两种不同的处理方法：一种是通过字符串切片和列表操作，另一种是利用正则表达式的分组功能。文章详细介绍了每种方法的实现步骤，以及它们在实际应用中的优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

列1：
"""
s2 = "http://www.interoem.com/messageinfo.asp?id=35`
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415"
"""

import re
s2 = """http://www.interoem.com/messageinfo.asp?id=35`
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415"""


#小白型代码
ret = re.findall(r"http://.*?\.asp",s2)
print(ret)
str = s2.split("?")
list1 = list()
list1.append(str[0])
del str[0]
del str[len(str)-1]
for i in str:
    j = i.split("\n")
    list1.append(j[1])
print(list1)


#大牛型代码
p = r"(http://.*?/).*"
print(re.sub(p, lambda x: x.group(1),s2))