PHP中对于URL进行编码,可以使用urlencode()或者rawurlencode(),二者的区别是前者把空格编码为'+',而后者把空格编码为'%20',不过应该注意的是,在编码时应该只对部分URL编码,否则URL中的冒号和反斜杠也会被转义。下面是详细解释:///\\\
stringurlencode(stringstr)
返回字符串,此字符串中除了-_.之外的所有非字母数字字符都将被替换成百分号(%)后跟两位十六进制数,空格则编码为加号(+)。此编码与WWW表单POST数据的编码方式是一样的,同时与application/x-www-form-urlencoded的媒体类型编码方式一样。由于历史原因,此编码在将空格编码为加号(+)方面与RFC1738编码(参见rawurlencode())不同。此函数便于将字符串编码并将其用于URL的请求部分,同时它还便于将变量传递给下一页:例子1.urlencode()示例
复制代码代码如下:
<?php
echo'<ahref="mycgi?foo=',urlencode($userinput),'">';
?>
注意:小心与HTML实体相匹配的变量。像&、©和£都将被浏览器解析,并使用实际实体替代所期待的变量名。这是明显的混乱,W3C已经告诫人们好几年了。参考地址:http://www.w3.org/TR/html4/appendix/notes.html#h-B.2.2PHP通过arg_separator.ini指令,支持将参数分割符变成W3C所建议的分号。不幸的是大多数用户代理并不发送分号分隔符格式的表单数据。较为简单的解决办法是使用&代替&作为分隔符。你不需要为此修改PHP的arg_separator。让它仍为&,而仅使用htmlentities(urlencode($data))对你的URL进行编码。
例子2.urlencode()与htmlentities()示例
复制代码代码如下:
<?php
echo'<ahref="mycgi?foo=',htmlentities(urlencode($userinput)),'">';
?>
stringurlencode(stringstr)
返回字符串,此字符串中除了-_.之外的所有非字母数字字符都将被替换成百分号(%)后跟两位十六进制数。这是在RFC1738中描述的编码,是为了保护原义字符以免其被解释为特殊的URL定界符,同时保护URL格式以免其被传输媒体(像一些邮件系统)使用字符转换时弄乱。例如,如果你想在FTP的URL中包含密码:
例子1.rawurlencode()示例1
复制代码代码如下:
<?php
echo'<ahref="ftp://user:',rawurlencode('foo@+%/'),
'@ftp.my.com/x.txt">';
?>
或者,如果你想通过URL的PATH_INFO构成部分去传递信息:
例子2.rawurlencode()示例2
复制代码代码如下:
<?php
echo'<ahref="http://x.com/department_list_script/',
rawurlencode('salesandmarketing/Miami'),'">';
?>
在解码时,可以使用相应的urldecode()和rawurldecode(),相应地,rawurldecode()不会把加号('+')解码为空格,而urldecode()可以。下面是详细示例:
stringurldecode(stringstr)
解码给出的已编码字符串中的任何%##。返回解码后的字符串。例子1.urldecode()example
复制代码代码如下:
<?php
$a=explode('&',$QUERY_STRING);
$i=0;
while($i<count($a)){
$b=split('=',$a[$i]);
echo'Valueforparameter',htmlspecialchars(urldecode($b[0])),
'is',htmlspecialchars(urldecode($b[1])),"<br/>n";
$i++;
}
?>
stringrawurldecode(stringstr)
返回字符串,此字符串中百分号(%)后跟两位十六进制数的序列都将被替换成原义字符。
例子1.rawurldecode()示例
复制代码代码如下:
<?php
echorawurldecode('foo%20bar%40baz');//foobar@baz
?>
但是,有一点需要注意的地方是,urldecode()和rawurldecode()解码出的字符串是UTF-8格式的编码,如果URL中含有中文的话,而页面设置又不是UTF-8的话,则要把解码出的字符串进行转换,才能正常显示!
还有一个问题,就是所获得的URL不是%%nnn={0..F}的格式,而是%unnnnn={0..F}的格式,这时候再使用urldecode()和rawurldecode()是无法正确解码的,而要用下面这个函数才能正确解码:
复制代码代码如下:
functionutf8RawUrlDecode($source)
{
$decodedStr="";
$pos=0;
$len=strlen($source);
while($pos<$len){
$charAt=substr($source,$pos,1);
if($charAt=='%'){
$pos++;
$charAt=substr($source,$pos,1);
if($charAt=='u'){
//wegotaunicodecharacter
$pos++;
$unicodeHexVal=substr($source,$pos,4);
$unicode=hexdec($unicodeHexVal);
$entity="&#".$unicode.';';
$decodedStr.=utf8_encode($entity);
$pos+=4;
}
else{
//wehaveanescapedasciicharacter
$hexVal=substr($source,$pos,2);
$decodedStr.=chr(hexdec($hexVal));
$pos+=2;
}
}else{
$decodedStr.=$charAt;
$pos++;
}
}
return$decodedStr;
}
问题:2个函数都是针对字符串转义使其适合做文件名。该用哪个?哪个更标准?
结论:
rawurlencode遵守是94年国际标准备忘录RFC1738,
urlencode实现的是传统做法,和上者的主要区别是对空格的转义是'+'而不是'%20'
javascript的encodeURL也是94年标准,
而javascript的escape是另一种用"%xxx"标记unicode编码的方法。
推荐在PHP中使用用rawurlencode。弃用urlencode
样例
source:
超级无敌的人sadhasajdh数据样本sdlsfhejrthcxzb.file.jpeg
PHPurlencode:
%E8%B6%85%E7%BA%A7%E6%97%A0%E6%95%8C%E7%9A%84%E4%BA%BAsadha+sajdh%E6%95%B0%E6%8D%AE%E6%A0%B7%E6%9C%ACsdls+fhejrthcxzb.file.jpeg
PHPrawurlencode:
%E8%B6%85%E7%BA%A7%E6%97%A0%E6%95%8C%E7%9A%84%E4%BA%BAsadha%20sajdh%E6%95%B0%E6%8D%AE%E6%A0%B7%E6%9C%ACsdls%20fhejrthcxzb.file.jpeg
JavascriptencodeURI:
%E8%B6%85%E7%BA%A7%E6%97%A0%E6%95%8C%E7%9A%84%E4%BA%BAsadha%20sajdh%E6%95%B0%E6%8D%AE%E6%A0%B7%E6%9C%ACsdls%20fhejrthcxzb.file.jpeg
Javascriptescape:
%u8D85%u7EA7%u65E0%u654C%u7684%u4EBAsadha%20sajdh%u6570%u636E%u6837%u672Csdls%20fhejrthcxzb.file.jpeg