直接引用:
https://www.cnblogs.com/farewell-farewell/p/5902899.html
解析url地址正则表达式:
regexp = (r'^(?P<scheme>[a-z][\w\.\-\+]+)?:(//)?'
r'(?:(?P<username>\w+):(?P<password>[\w\W]+)@|)'
r'(?P<domain>[\w-]+(?:\.[\w-]+)*)(?::(?P<port>\d+))?/?'
r'(?P<path>\/[\w\.\/-]+)?(?P<query>\?[\w\.*!=&@%;:/+-]+)?'
r'(?P<fragment>#[\w-]+)?$')
match = re.search(regexp, url.strip(), re.U)
if match is None:
raise ValueError('Incorrent url: {0}'.format(url))
url_parts = match.groupdict()
url='https://blog.youkuaiyun.com/weixin_40907382/article/明细/79654372'
print(url_parts):{'scheme': 'https', 'username': None, 'password': None, 'domain': 'blog.youkuaiyun.com', 'port': None, 'path': '/weixin_40907382/article/明细/79654372', 'query': None, 'fragment': None}
URL正则解析
本文介绍了一个用于解析URL地址的正则表达式,并通过一个具体的Python示例展示了如何使用该正则表达式从一个完整的URL中抽取各个组成部分。
1546

被折叠的 条评论
为什么被折叠?



