UTF-8贯穿始终

我正在设置一个新服务器,并希望在我的Web应用程序中完全支持UTF-8。 我过去曾在现有服务器上尝试过此操作,但最终似乎总是不得不退回到ISO-8859-1。

我到底需要在哪里设置编码/字符集? 我知道我需要配置ApacheMySQLPHP来执行此操作-是否可以遵循一些标准清单,或者对出现不匹配的地方进行故障排除?

这是用于运行Linux 5,PHP,5和Apache 2的新Linux服务器。


#1楼

我发现有人在使用PDO时遇到问题,答案是将其用于PDO连接字符串:

$pdo = new PDO(
    'mysql:host=mysql.example.com;dbname=example_db',
    "username",
    "password",
    array(PDO::MYSQL_ATTR_INIT_COMMAND => "SET NAMES utf8"));

我从中获取此信息的网站已经关闭,但是幸运的是,我能够使用Google缓存来获取它。


#2楼

我最近发现,使用strtolower()可能会导致数据在特殊字符后被截断的问题。

解决方案是使用

mb_strtolower($string, 'UTF-8');

mb_使用MultiByte。 它支持更多字符,但总的来说要慢一些。


#3楼

首先,如果您使用的是<5.3PHP,则不会。 您有很多问题要解决。

令我惊讶的是,没有人提到intl库,该库对unicodegraphemes字符串操作本地化等提供了很好的支持,请参见下文。

我将引用伊丽莎白·史密斯Elizabeth Smith)PHPBenelux'14上 幻灯片中有关PHP对unicode支持的一些信息。

国际

好:

  • ICU库周围的包装器
  • 标准化语言环境,按脚本设置语言环境
  • 数字格式
  • 货币格式
  • 消息格式(替换gettext)
  • 日历,日期,时区和时间
  • 音译器
  • 欺骗检查器
  • 资源包
  • 转换器
  • IDN支持
  • 字素
  • 校对
  • 迭代器

坏:

  • 不支持zend_multibite
  • 不支持HTTP输入输出转换
  • 不支持函数重载

mb_string

  • 启用zend_multibyte支持
  • 支持透明的HTTP输入/输出编码
  • 提供一些包装功能,例如strtoupper

ICONV

  • 主要用于字符集转换
  • 输出缓冲区处理程序
  • MIME编码功能
  • 转换
  • 一些字符串助手(len,substr,strpos,strrpos)
  • 流过滤器stream_filter_append($fp, 'convert.iconv.ISO-2022-JP/EUC-JP')

资料库

  • mysql:表和连接上的字符集和排序规则(不是排序规则)。 也不要使用mysql-msqli或PDO
  • PostgreSQL:pg_set_client_encoding
  • sqlite(3):确保已使用unicode和intl支持对其进行了编译

其他一些陷阱

  • 除非使用第三部分扩展名,否则不能在PHP和Windows中使用Unicode文件名。
  • 如果使用exec,proc_open和其他命令行调用,则以ASCII格式发送所有内容
  • 纯文本不是纯文本,文件具有编码
  • 您可以使用iconv过滤器即时转换文件

我将更新此答案,以防万一事情改变了添加的功能等等。


#4楼

我要添加到这些惊人答案中的唯一一件事就是强调以utf8编码保存文件,我注意到浏览器接受此属性,而不是将utf8设置为您的代码编码。 任何体面的文本编辑器都会向您显示此内容,例如Notepad ++具有用于文件编码的菜单选项,它向您显示当前编码并允许您对其进行更改。 对于我所有的php文件,我都使用不带BOM的utf8。

不久前,有人要求我为其他人设计的php / mysql应用程序添加utf8支持,我注意到所有文件均以ANSI编码,因此我不得不使用ICONV转换所有文件,更改数据库表以使用utf8 charset和utf8_general_ci整理,在连接后将“ SET NAMES utf8”添加到数据库抽象层(如果使用5.3.6或更早版本,则必须在连接字符串中使用charset = utf8)并更改字符串函数以使用php多字节等效的字符串函数。


#5楼

在PHP中,您将需要使用多字节函数或打开mbstring.func_overload 。 这样,如果您使用的字符超过一个字节,strlen之类的东西就可以工作。

您还需要确定响应的字符集。 您可以如上所述使用AddDefaultCharset,或编写返回标头的PHP代码。 (或者,您可以在HTML文档中添加META标签。)


#6楼

除了在php.ini中设置default_charset之外,还可以在任何输出之前使用代码中的header()发送正确的字符集:

header('Content-Type: text/html; charset=utf-8');

只要您意识到大多数字符串函数不适用于Unicode,并且某些字符串函数可能会完全破坏字符串,在PHP中使用Unicode就很容易。 PHP认为“字符”的长度为1个字节。 有时这是可以的(例如, explode()仅查找字节序列并将其用作分隔符,因此,无论要查找的实际字符如何都没有关系)。 但是有时,当该函数实际上是设计用于字符时 ,PHP不知道您的文本具有使用Unicode找到的多字节字符。

phputf8是一个很好的库。 这将重写所有“错误”功能,因此您可以安全地处理UTF8字符串。 也有类似mbstring扩展这样的扩展尝试为您完成此操作,但是我更喜欢使用该库,因为该库具有更高的可移植性(但我编写的是大众市场产品,因此对我来说很重要)。 但是phputf8可以在后台使用mbstring来提高性能。


#7楼

资料储存

  • 在数据库的所有表和文本列上指定utf8mb4字符集。 这使得MySQL在物理上存储和检索以UTF-8本地编码的值。 请注意,如果指定了utf8mb4_*排序规则(没有任何显式字符集),则MySQL将隐式使用utf8mb4编码。

  • 在旧版本的MySQL(<5.5.3)中,不幸的是,您将被迫仅使用utf8 ,后者仅支持Unicode字符的子集。 我希望我在开玩笑。

资料存取

  • 在您的应用程序代码(例如PHP)中,无论使用utf8mb4数据库访问方法,都需要将连接字符集设置为utf8mb4 。 这样,当MySQL将数据交给您的应用程序时,MySQL不会从其本地UTF-8进行转换,反之亦然。

  • 一些驱动程序提供了自己的配置连接字符集的机制,该机制既可以更新其自身的内部状态,又可以将要在连接上使用的编码通知MySQL-这通常是首选方法。 在PHP中:

    • 如果您使用PHP≥5.3.6的PDO抽象层,则可以在DSN中指定charset

       $dbh = new PDO('mysql:charset=utf8mb4'); 
    • 如果您使用的是mysqli ,则可以调用set_charset()

       $mysqli->set_charset('utf8mb4'); // object oriented style mysqli_set_charset($link, 'utf8mb4'); // procedural style 
    • 如果您坚持使用普通的mysql,但碰巧正在运行PHP≥5.2.3,则可以调用mysql_set_charset

  • 如果驱动程序没有提供自己的设置连接字符集的机制,则可能必须发出查询以告知MySQL您的应用程序希望连接上的数据如何被编码: SET NAMES 'utf8mb4'

  • 如上所述,关于utf8mb4 / utf8注意事项相同。

输出

  • 如果您的应用程序将文本传输到其他系统,则还需要告知他们字符编码。 对于Web应用程序,必须告知浏览器发送数据的编码(通过HTTP响应标头或HTML元数据 )。

  • 在PHP中,您可以使用default_charset php.ini选项,或自己手动发出Content-Type MIME标头,这虽然工作更多,但效果相同。

  • 使用json_encode()编码输出时,添加JSON_UNESCAPED_UNICODE作为第二个参数。

输入

  • 不幸的是,在尝试存储或在任何地方使用它之前,您应该验证每个收到的字符串都是有效的UTF-8。 PHP的mb_check_encoding()可以达到目的,但您必须mb_check_encoding()使用。 真的没有办法解决这个问题,因为恶意客户端可以使用他们想要的任何编码来提交数据,而且我还没有找到使PHP可靠地为您执行此操作的技巧。

  • 从我对当前HTML规范的阅读中,对于现代HTML ,以下子项目不再是必需的,甚至不再有效。 我的理解是浏览器将使用为文档指定的字符集并提交数据。 但是,如果您定位的是旧版HTML(XHTML,HTML4等),则以下几点可能仍然有用:

    • 仅适用于HTML5之前的HTML :您希望浏览器发送给您的所有数据都使用UTF-8。 不幸的是,如果唯一可靠的方法是将accept-charset属性添加到所有<form>标签: <form ... accept-charset="UTF-8">
    • 仅对于HTML5之前的HTML :请注意,W3C HTML规范指出,客户端“应”默认使用服务器提供的任何字符集将表单发送回服务器,但这显然仅是建议,因此需要在每一个服务器上都明确<form>标签。

其他代码注意事项

  • 显然,您将要提供的所有文件(PHP,HTML,JavaScript等)都应使用有效的UTF-8进行编码。

  • 您需要确保每次处理UTF-8字符串时,都必须安全进行。 不幸的是,这是困难的部分。 您可能需要广泛使用PHP的mbstring扩展名。

  • PHP的内置字符串操作默认情况下不是 UTF-8安全的。 您可以使用正常的PHP字符串操作(例如串联)安全地进行某些操作,但是对于大多数事情,您应该使用等效的mbstring函数。

  • 要知道您在做什么(请阅读:不要搞砸),您确实需要了解UTF-8及其在最低级别上的工作方式。 查看utf8.com上的任何链接, 获取一些好的资源,以学习您需要了解的所有内容。


#8楼

PHP对Unicode的支持仍然一团糟。 尽管它能够将ISO8859字符串(在内部使用)转换为utf8,但它本身无法处理unicode字符串,这意味着所有字符串处理功能都会破坏并破坏您的字符串。 因此,您必须使用单独的库来提供适当的utf8支持,或者自己重写所有字符串处理函数。

最简单的部分就是在HTTP标头和数据库等中指定字符集,但是如果您的PHP代码没有输出有效的UTF8,那么这些都不重要。 这是最困难的部分,PHP在那里几乎没有帮助。 (我认为PHP6应该可以解决最坏的情况,但是仍然有一段时间)


#9楼

如果您想让MySQL服务器决定字符集,而不是PHP作为客户端(旧的行为;我认为首选),请尝试在[mysqld]下的my.cnf添加skip-character-set-client-handshake my.cnf ,然后重新启动mysql

如果您使用的不是UTF8,可能会造成麻烦。


#10楼

我想在chazomaticus的出色回答中添加一件事:

不要忘记META标记(例如,或者HTML4或XHTML版本 ):

<meta charset="utf-8">

这看似微不足道,但IE7以前给我带来了问题。

我做对了一切。 数据库,数据库连接和Content-Type HTTP标头都设置为UTF-8,并且在所有其他浏览器中都可以正常工作,但是Internet Explorer仍然坚持使用“西欧”编码。

原来,该页面缺少META标签。 添加即解决了该问题。

编辑:

实际上,W3C有很大一部分专用于I18N 。 他们有许多与此问题相关的文章-描述了HTTP,(X)HTML和CSS方面的内容:

他们建议同时使用HTTP标头和HTML元标记(如果XHTML用作XML,则建议使用XML声明)。


#11楼

我刚刚经历了同样的问题,并在PHP手册中找到了一个很好的解决方案。

我将所有文件编码更改为UTF8,然后将连接上的默认编码更改为UTF8。 这样就解决了所有问题。

if (!$mysqli->set_charset("utf8")) {
    printf("Error loading character set utf8: %s\n", $mysqli->error);
} else {
   printf("Current character set: %s\n", $mysqli->character_set_name());
}

查看资料


#12楼

最佳答案是极好的。 这是我在常规的debian / php / mysql设置中必须执行的操作:

// storage
// debian. apparently already utf-8

// retrieval
// the mysql database was stored in utf-8, 
// but apparently php was requesting iso. this worked: 
// ***notice "utf8", without dash, this is a mysql encoding***
mysql_set_charset('utf8');

// delivery
// php.ini did not have a default charset, 
// (it was commented out, shared host) and
// no http encoding was specified in the apache headers.
// this made apache send out a utf-8 header
// (and perhaps made php actually send out utf-8)
// ***notice "utf-8", with dash, this is a php encoding***
ini_set('default_charset','utf-8');

// submission
// this worked in all major browsers once apache
// was sending out the utf-8 header. i didnt add
// the accept-charset attribute.

// processing
// changed a few commands in php, like substr,
// to mb_substr

这就是全部了 !


#13楼

如果您想要mysql解决方案,则在服务器迁移后,我的两个项目也遇到了类似的问题。 在搜索并尝试了很多解决方案之后,我发现了这一解决方案(在此解决方案生效之前一无所获):

mysqli_set_charset($con,"utf8");

将这一行添加到我的配置文件后,一切正常!

当我想解决html查询中的插入内容时,我找到了这个解决方案https://www.w3schools.com/PHP/func_mysqli_set_charset.asp

祝好运!


#14楼

请注意:

您正面临非拉丁字符显示为????????? ,你问了一个问题,它得到了与这个经典问题的参考关闭,你尝试过一切,不管你是什么,你仍然得到?????????? 来自MySQL

这主要是因为您正在测试旧数据 ,这些旧数据已使用错误的字符集插入数据库,并已转换并存储为实际的问号字符? 。 这意味着您将永远失去原始文本,无论您尝试什么,都会得到???????

在新数据上重新应用从该问题的答案中学到的知识可以解决您的问题。


#15楼

就我而言,我使用的是mb_split ,它使用了正则表达式。 因此,我还必须通过执行mb_regex_encoding('UTF-8');来手动确保regex编码为utf-8 mb_regex_encoding('UTF-8');

附带说明,我还通过运行mb_internal_encoding()发现内部编码不是utf-8,并且通过运行mb_internal_encoding("UTF-8");更改了内部编码mb_internal_encoding("UTF-8");

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值