一、匹配.com或其他后缀的URL
import re
pattern = "[a-zA-Z]+://[^\s]*[.com|.cn|.top]"
string = '<a href="http://www.khqust.top">我的网站</a>'
result = re.search(pattern, string)
print(result)
二、抓取页面中所有URL
#Python3.6.1
import re
import urllib.request
url = "http://www.youkuaiyun.com/"
content = urllib.request.urlopen(url).read()
content = content.decode('utf-8')
urls = re.findall("<a.*?href=.*?<\/a>", content, re.I)
for url in urls:
print(url)
link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", content)
for url in link_list:
print(url)
本文介绍如何使用Python的正则表达式模块re来抓取网页中的URL链接。首先展示了一个简单的例子,用于匹配特定后缀的URL;接着详细介绍了如何从实际的网页中抓取所有URL链接的方法。
2874

被折叠的 条评论
为什么被折叠?



