以下所有的代码均是是python3.6环境运行
1、提取url的类别
import urllib.request
d = urllib.request.splittype("https://www.baidu.com//") print(d) a = urllib.request.splittype("https://www.baidu.com") print(a)
('https', '//www.baidu.com//')
('https', '//www.baidu.com')
返回的是一个元祖
2、提取url中的host
b = urllib.request.splithost("//www.baidu.com/aaa") print(b) c = urllib.request.splithost("www.baidu.com/aaa") print(c) e = urllib.request.splithost("https://www.baidu.com/aaa") print(e)
('www.baidu.com', '/aaa')
(None, 'www.baidu.com/aaa')
(None, 'https://www.baidu.com/aaa')
由此可见,只有符合//开头的url 才能准确提取到url的host