url格式:
scheme://host:port/path/?query-string=xxx#anchor
scheme:代表访问的协议,一般为http或者https
host:主机名,域名,比如:www.baidu.com
port:端口名,访问一个网站的时候默认80端口
path:查找路径 /cans/index.html就是URL中的路径,http://www.hda.com/cans/index.html
query-string:查询字符串,比如:www.baidu.com/s?wd=python,后面的wd=python就是查询字符串
anchor:锚点,前端用来页面定位的。
对于一个url,可以用urlparse()或urlsplit()两个函数来将url的各个部分分离获取出来。
from urllib.parse import urlsplit
url='https://www.youkuaiyun.com/'
re=urlsplit(url)
print(re.scheme)
---------结果---------
https