为了让你的网页能在更多的服务器上正常地显示,还是加上“SET NAMES UTF8”吧...

为了让你的网页能在更多的服务器上正常地显示,还是加上“SET NAMES UTF8”吧
2007-05-28 09:18

Repinted: http://blog.youkuaiyun.com/class1/archive/2006/12/30/1469298.aspx

为了让你的网页能在更多的服务器上正常地显示,还是加上“SET NAMES UTF8”吧 (可以根据你的喜欢选择相应的编码,如gb2312) ,即使你现在没有加上这句也能正常访问。

先说MySQL的字符集问题。Windows下可通过修改my.ini内的

  1. # CLIENT SECTION
  2. [mysql]
  3. default-character-set=utf8
  4. # SERVER SECTION
  5. [mysqld]
  6. default-character-set=utf8

这两个字段来更改数据库的默认字符集。第一个是客户端默认的字符集,第二个是服务器端默认的字符集。假设我们把两个都设为utf8,然后在MySQL Command Line Client里面输入“show variables like “character_set_%”;”,可看到如下字符:

character_set_client latin1
character_set_connection latin1
character_set_database utf8
character_set_results latin1
character_set_server utf8
character_set_system utf8

其中的utf8随着我们上面的设置而改动。此时,要是我们通过采用UTF-8的PHP程序从数据库里读取数据,很有可能是一串“?????” 或者是其他乱码。网上查了半天,解决办法倒是简单,在连接数据库之后,读取数据之前,先执行一项查询“SET NAMES UTF8”,即在PHP里为

  1. mysql_query ( " SET NAMES UTF8 " ) ;   (注意大写)

即可显示正常(只要数据库里信息的字符正常)。为什么会这样?这句查询“SET NAMES UTF8”到底是什么作用?

到MySQL命令行输入“SET NAMES UTF8;”,然后执行“show variables like “character_set_%”;”,发现原来为latin1的那些变量“character_set_client”、“character_set_connection”、“character_set_results”的值全部变为utf8了,原来是这3个变量在捣蛋。查阅手册,上面那句等于:

  1. SET   character_set_client   =  utf8 ;
  2. SET   character_set_results   =  utf8 ;
  3. SET   character_set_connection   =  utf8 ;

看看这3个变量的作用:

信息输入路径:client→connection→server;
信息输出路径:server→connection→results。

换句话说,每个路径要经过3次改变字符集编码。以出现乱码的输出为例,server里utf8的数据,传入connection转为latin1,传入results转为latin1,utf-8页面又把results转过来。如果两种字符集不兼容,比如latin1和utf8,转化过程就为不可逆的,破坏性的。所以就转不回来了。

但这里要声明一点,“SET NAMES UTF8”作用只是临时的,MySQL重启后就恢复默认了。

接下来就说到MySQL在服务器上的配置问题了。岂不是我们每次对数据库读写都得加上“SET NAMES UTF8”,以保证数据传输的编码一致?能不能通过配置MySQL来达到那三个变量默认就为我们要想的字符集?手册上没说,我在网上也没找到答案。所以,从服务器配置的角度而言,是没办法省略掉那行代码的。

总结以下几点:

要保证select的返回与程序编码一致,即character_set_results与程序编码一致.

要保证程序编码与浏览器一致,即程序编码与<meta http-equiv="Content-Type" content="text/html; charset=?" />一致.

### MySQL中utf8mb4与utf8的区别及适用场景 在MySQL中,`utf8mb4`和`utf8`是两种不同的字符集编码方式。尽管它们的名称相似,但两者之间存在显著差异。 #### 1. 编码范围 `utf8`字符集实际上是一个受限版本的UTF-8编码,在MySQL中仅支持最多3字节的字符编码[^1]。这意味着它无法正确存储或处理需要4字节编码的字符(例如一些表情符号或罕见的Unicode字符)。相比之下,`utf8mb4`完全支持标准的UTF-8编码,能够表示最多4字节的字符,覆盖了更广泛的Unicode字符集[^2]。 #### 2. 存储空间需求 由于`utf8mb4`支持4字节字符,其单个字符的最大存储需求为4字节,而`utf8`字符集的最大存储需求为3字节。因此,在使用`utf8mb4`时,可能需要更多的存储空间来保存某些特殊字符。 #### 3. 性能表现 尽管`utf8mb4`需要更多的存储空间,现代MySQL版本已经优化了对`utf8mb4`的支持,使其性能优于传统的`utf8`字符集[^1]。此外,随着表情符号和其他4字节Unicode字符在实际应用中的普及,选择`utf8mb4`可以避免因字符集限制导致的数据损坏或截断问题。 #### 4. 配置示例 为了在MySQL中启用`utf8mb4`,需要修改配置文件并确保以下参数被正确设置: ```ini default-character-set = utf8mb4 character-set-server = utf8mb4 collation-server = utf8mb4_unicode_ci init_connect='SET NAMES utf8mb4' ``` 这些配置项确保了服务器、客户端以及连接层均使用`utf8mb4`字符集[^2]。 #### 5. 适用场景 - **utf8**:适用于只需要存储基本拉丁字符、希腊字母或其他常见语言字符的场景,且不需要支持4字节Unicode字符。 - **utf8mb4**:推荐用于所有新项目,特别是当应用程序需要支持表情符号、亚洲字符或其他复杂Unicode字符时。 ### 示例代码 以下是一个简单的SQL语句,用于设置数据库、表和列的字符集为`utf8mb4`: ```sql CREATE DATABASE my_database CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci; CREATE TABLE my_table ( id INT PRIMARY KEY, name VARCHAR(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci ) DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci; ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值