浏览器是怎么知道该按照哪种方式编码的?
浏览器向服务器请求数据的时候,服务器通过响应头中的content-type来告诉浏览器,发送的内容的编码格式。比如,我们在html页面里面加上如下的模拟响应头:<meta http-equiv="Content-Type" content="text/html;charset=gbk" />。浏览器收到这个响应头之后,就会按照gbk的方式来打开页面。之后,在这个页面上,浏览器向服务器提交数据的时候,都会按照gbk来编码。
URL编码和字符集(gbk或者utf-8)的关系
Get请求乱码分析
Get请求参数是附加在url后面的,如果有中文的话,会对中文进行urlencode。如果html页面本身是gbk编码,则浏览器进行urlencode时会采用gbk的字符集,字符串"张三"就会被编码成%D5%C5%C8%FD。
而tomcat9中默认的URIEncoding为UTF,因此tomcat对url进行urldecode(主要是为了取出get提交的参数)时,就会解码错误而乱码。以下是tomcat官方文档对URIEncoding的解释。
This specifies the character encoding used to decode the URI bytes, after %xx decoding the URL. If not specified, UTF-8 will be used unless the org.apache.catalina.STRICT_SERVLET_COMPLIANCE system property is set to true in which case ISO-8859-1 will be used.
Get请求乱码解决
在前端js里面,对需要使用get提交的中文字符串使用encodeURI()进行编码,该函数会一直使用utf-8的字符集进行url编码,不管页面采用的是什么编码,该函数都会使用utf-8字符集进行url编码。