MYSQL校对规则

本文介绍了数据库中字符集校对规则的基本概念,包括如何通过不同的校对规则影响字符串的比较和排序,以及由此可能导致的问题,如非法混合校对规则错误和SELECT出错误记录的情况。

一、前言

有时候遇到这种情况,你用一个like语句查询,查到的结果中有一些并没有包含你查询的关键词的纪录;
有时候遇到这种情况,你的数据库自作聪明的大小写不敏感,让你在更新时把大小写不同的两条记录都更新了;
有时候遇到这种情况,你的查询语句一切正常,查询却失败了,报告Illegal mix of collations错误;

你很困惑,在想数据库是不是坏了。。。其实 ,这些都和数据库字符集的校对规则有关;了解了校对规则,你就知道怎样处理这些问题。

那么,校对规则是怎么回事呢?它是一组规则,负责决定某一字符集下的字符进行比较和排序的结果。

比如说,有latin1字符集中的字母A和a,我们需要它们在比较的时候相等,那么,我们可以使用字符集校对规则 latin1_general_ci;这种校对规则在比较和排序的时候不区分大小写;如果我们需要他们在比较的时候不等呢?也很简单,我们可以使用字符集校对规则latin1_bin;这种校对规则会以二进制的方式对字符进行比较,很明显,a和A的二进制编码不同,比较的结果就是不等。

上面的场景说明了校对规则在最简单情况下起的作用;实际情况与此并没有太多不同,只不过稍微有些复杂而已。

 

二、校对规则总览

我们可以使用 SHOW COLLATION 指令来查看数据库支持的校对规则

在图中,我们列出了数据库支持的latin1字符集的校对规则。为什么一种字符集竟然有这么多种的校对规则呢?因为在不同的情况下,对比较的结果有不同的期待,所以就有了不同的校对规则。前面说的大小写敏感(latin1_general_cs)和不敏感(latin1_general_ci)是两种校对规则,根据二进制方式进行比较(latin1_bin)也是一种校对规则,德国人(latin1_german1_ci)和西班牙人(latin1_spanish_ci)使用的某些不同的拉丁字符在某些情况下是等价的,所以有了两种新的校对规则。

举个例子,在latin1_german1_ci中,如下字符是等价的,而他们,具有不同的外形和编码。当然,它们的编码不同,所以在latin1_bin校对规则下,他们又是不等价的了。
A,a,À,Á,Â,Ã,Ä,Å,Æ,à,á,â,ã,ä,å,æ

 

三、校对规则导致的问题

1、混合校对规则比较

两个字符串比较,要求两者必须有相同的校对规则,或者两者的校对规则是相容的——所谓相容是指,两种校对规则优先级不同,比较的时候两者使用高优先级的校对规则进行比较,比如latin1_bin的优先级相对较高。

复制代码
CREATE TABLE `tbl` (
  `col_a` int(11) default NULL,
  `col_b` char(20) character set latin1 collate latin1_general_ci default NULL,
  `col_c` char(20) character set latin1 collate latin1_german1_ci default NULL,
  `col_d` char(20) character set latin1 collate latin1_bin default NULL,
  KEY `col_a` (`col_a`),
  KEY `col_b` (`col_b`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1
复制代码

在这个表中,col_b、col_c、col_d的校对规则各不同;其中,latin1_general_ci和latin1_german1_ci 校对规则同级,不能进行比较;如果强行比较的话,就会报错,如下:

mysql> select * from tbl where col_b = col_c;
ERROR 1267 (HY000): Illegal mix of collations (latin1_general_ci,IMPLICIT) and (latin1_german1_ci,IMPLICIT) for operation '='

而latin1_general_ci和latin1_bin的优先级不同,latin1_bin高于latin1_general,因此比较的时候,会按照latin1_bin的规则进行比较。

mysql> select * from tbl where binary col_b = col_d;
Empty set (0.00 sec)

当然,可以在sql语句中强制指定校对规则进行比较,下面这个例子就说明了这一点:

mysql> select * from tbl where col_b COLLATE latin1_danish_ci = col_c COLLATE latin1_danish_ci;
Empty set (0.00 sec)

 

2、校对规则导致的问题——SELECT出错误的记录

 在上面的基础上,我们要演示一个常见的问题;我们需要对该数据表进行一定的处理:

alter table tbl modify col_b collate latin1_swedish_ci default null;
insert into tbl (col_b) values ('hao123');

然后进行下面的查询

我们希望查询的是包含“刘”的记录,hao123这个和“刘”没有任何关系的条目被选了出来,看起来很奇怪。
不过这不是数据库出了问题,而是校对规则的使用上存在问题:
下面是我们使用ultraedit察看字符串的二进制编码的结果,在gbk编码下,hao123的编码为68 61 6f 31 32 33,而刘的编码位C1 F5。

在前面的latin1_swedish_ci 校对规则中可以看到:

61和C1都与41等价

6F和F5都与4F等价

这就是ao = 刘的原因。

解决办法有两个:
1)修改该字段的字符集和校对规则,改成gbk,这该问题不在存在。这是完美的解决方案,不过有些时候你没有权限对数据库进行这样的改动。

mysql> alter table tbl modify col_b char(20) charset gbk default null;
Query OK, 1 row affected (0.01 sec)
Records: 1  Duplicates: 0  Warnings: 0

mysql> select * from tbl where binary col_b like like '%刘%';
Empty set (0.00 sec)

2)查询的时候声明校对规则为latin1_bin 。这样可以在一定程度上缓解这个问题;不过如果col_b中只要含有c1 f5,就会被选出来——而c1 f5可能恰好是另外两个字符的前半截和后半截,或者干脆就是 Á õ ....

mysql> select * from tbl where binary col_b like '%刘%';
Empty set (0.00 sec)

 

<think>嗯,用户想了解如何在MySQL中修改校对规则校对规则会影响字符串的比较和排序,所以正确设置很重要。首先,我需要回忆一下MySQL中字符集和校对规则的关系。字符集决定存储的字符编码,而校对规则则是字符比较的规则。 用户可能的需求可能包括修改数据库、表或列的校对规则。或者,他们可能在创建对象时指定不同的规则。还可能需要在连接级别调整,以影响查询行为。 首先,我应该分步骤说明不同的修改场景。比如,修改服务器默认、数据库、表、列,还有连接的设置。每个步骤都需要具体的SQL语句示例,这样用户能直接应用。 然后,需要注意修改校对规则可能带来的影响,比如数据存储的变化或索引的重新构建。特别是当从一种校对规则切换到另一种时,比如从utf8mb4_general_ci到utf8mb4_bin,排序结果会不同,可能需要重建索引或检查查询逻辑。 还要提醒用户权限问题,修改数据库、表或列可能需要相应的ALTER权限。此外,备份数据的重要性,避免操作失误导致数据问题。 可能用户没有明确说明是修改现有结构还是新建时设置,所以两种情况都要涵盖。比如创建数据库时指定,或者修改已有表的校对规则。 另外,校对规则必须与字符集兼容,不能混合不同的字符集和规则。比如,utf8mb4的校对规则不能用在latin1的字符集上。这点需要强调,避免用户出错。 总结步骤应该是:确定当前校对规则,选择合适的校对规则,修改对应的数据库对象,检查影响。可能还需要测试应用程序是否受排序规则变化的影响。 现在需要组织这些思路,用清晰的中文步骤,配以示例代码,并注意使用正确的LaTeX格式。比如,在提到变量时使用$character_set_server$,但根据系统指令,所有行内数学表达式或变量应该用$...$。不过MySQL变量名通常用反引号或直接书写,这里可能需要确认是否需要用LaTeX的数学模式。但根据用户给的例子,变量如$x^2$是用$...$,所以可能系统要求技术名称如变量名也需要用$包裹。但可能用户示例中的变量是数学变量,而技术名称如MySQL的变量可能不需要。需要仔细看系统指令。 根据系统指令,行内数学表达式必须用$...$,而技术名称如MySQL的系统变量可能属于普通文本。例如,用户给的例子是$x^2$,积分表达式等,所以可能技术变量不需要。因此,可能在回答中,MySQL变量名不需要用$...$,而数学变量则需要。但需要确保LaTeX的正确使用。 此外,独立公式需要用$$...$$,但在这个问题中可能涉及较少数学公式,更多是代码示例。所以可能重点在正确使用反引号或代码块,但用户提供的示例中,用户可见层需要结构清晰,步骤明确。 所以最终回答应该分步骤,每个步骤有说明和示例代码,注意事项,并提醒备份和测试。</think>MySQL校对规则(Collation)用于定义字符的比较和排序规则。修改校对规则需谨慎,可能影响查询结果、排序及索引。以下是修改校对规则的详细步骤: --- ### 1. **查看当前校对规则** 在修改前,先确认当前字符集和校对规则: ```sql -- 查看服务器默认设置 SHOW VARIABLES LIKE 'character_set_server'; SHOW VARIABLES LIKE 'collation_server'; -- 查看数据库的校对规则 SELECT DEFAULT_CHARACTER_SET_NAME, DEFAULT_COLLATION_NAME FROM INFORMATION_SCHEMA.SCHEMATA WHERE SCHEMA_NAME = 'your_database_name'; -- 查看表的校对规则 SHOW TABLE STATUS LIKE 'your_table_name'; ``` --- ### 2. **修改校对规则** #### **场景1:修改服务器默认校对规则** 编辑MySQL配置文件(如`my.cnf`或`my.ini`): ```ini [mysqld] character-set-server = utf8mb4 collation-server = utf8mb4_0900_ai_ci ``` 重启MySQL服务生效。 #### **场景2:修改数据库的校对规则** ```sql ALTER DATABASE your_database_name CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci; ``` #### **场景3:修改表的校对规则** ```sql ALTER TABLE your_table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci; ``` #### **场景4:修改列的校对规则** ```sql ALTER TABLE your_table_name MODIFY your_column_name VARCHAR(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci; ``` #### **场景5:新建对象时指定校对规则** ```sql -- 创建数据库 CREATE DATABASE new_db CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci; -- 创建表 CREATE TABLE new_table ( id INT, content VARCHAR(100) COLLATE utf8mb4_0900_ai_ci ) DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci; ``` --- ### 3. **修改连接级别的校对规则** 在建立连接时指定: ```sql SET NAMES 'utf8mb4' COLLATE 'utf8mb4_0900_ai_ci'; ``` 或在查询中强制指定: ```sql SELECT * FROM table_name ORDER BY column_name COLLATE utf8mb4_0900_ai_ci; ``` --- ### 4. **注意事项** 1. **兼容性** 校对规则必须与字符集匹配(如`utf8mb4`字符集只能用`utf8mb4_xxx`校对规则)。 2. **数据影响** - 修改现有数据的校对规则可能触发表重建(尤其对`MyISAM`引擎)。 - 索引排序可能变化,需重建索引。 3. **权限要求** 需具备`ALTER`权限修改数据库/表结构。 4. **备份优先** 操作前务必备份数据,避免意外丢失。 --- ### 5. **常见校对规则示例** - `utf8mb4_general_ci`:不区分大小写,通用排序 - `utf8mb4_0900_ai_ci`(MySQL 8.0+):基于Unicode 9.0,不区分重音和大小写 - `utf8mb4_bin`:二进制比较,区分大小写 --- 通过以上步骤,可灵活调整MySQL校对规则。建议先在测试环境验证,再应用到生产环境。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值