Python字符串匹配及正则表达式说明

URL正则解析

最新推荐文章于 2025-06-05 16:01:08 发布

转载最新推荐文章于 2025-06-05 16:01:08 发布 · 987 阅读

python 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了一个用于解析URL地址的正则表达式，并通过一个具体的Python示例展示了如何使用该正则表达式从一个完整的URL中抽取各个组成部分。

直接引用：

https://www.cnblogs.com/farewell-farewell/p/5902899.html

解析url地址正则表达式：

regexp = (r'^(?P<scheme>[a-z][\w\.\-\+]+)?:(//)?'
          r'(?:(?P<username>\w+):(?P<password>[\w\W]+)@|)'
          r'(?P<domain>[\w-]+(?:\.[\w-]+)*)(?::(?P<port>\d+))?/?'
          r'(?P<path>\/[\w\.\/-]+)?(?P<query>\?[\w\.*!=&@%;:/+-]+)?'
          r'(?P<fragment>#[\w-]+)?$')
match = re.search(regexp, url.strip(), re.U)
if match is None:
    raise ValueError('Incorrent url: {0}'.format(url))
url_parts = match.groupdict()

url='https://blog.youkuaiyun.com/weixin_40907382/article/明细/79654372'

print(url_parts):{'scheme': 'https', 'username': None, 'password': None, 'domain': 'blog.youkuaiyun.com', 'port': None, 'path': '/weixin_40907382/article/明细/79654372', 'query': None, 'fragment': None}