在url中出现中文字符时候,一般都是编码为utf-8格式的百分号编码的,但是也有部分网站encode成gbk编码格式。
- utf-8格式: 1个中文字符编码为3个字节的百分号编码格式;(python3 urllib.parse 默认编码是utf-8)
- gbk格式: 1个中文字符编码为2个字节的百分号编码格式。
from urllib.parse import unquote,quote
name = '国'
gbk_name = quote(name,encoding = 'gbk')
print(gbk_name)
print(unquote(gbk_name, encoding='gbk'))
utf_name = quote(name)
print(utf_name)
print(unquote(utf_name))
E:/track_code/test.py
>>>%B9%FA
>>>国
>>>%E5%9B%BD
>>>国