在网络爬虫和数据分析等应用中,经常需要从网页中提取URL链接。Python提供了强大的正则表达式库re,通过使用正则表达式,可以方便地从网页文本中提取出所需的URL。本文将介绍如何使用正则表达式提取网页URL,并提供相应的源代码示例。
首先,我们需要导入Python的re模块,该模块提供了正则表达式的功能。
import re
接下来,我们定义一个函数,用于从网页文本中提取URL。函数的输入参数是网页文本,输出是一个URL列表。
def extract_urls(text):
pattern = r'(https?://\S+)'
urls