项目中有时候会遇到需要按照汉字拼音排序的需求。
如果要排序的字段编码使用的是GBK字符集,那就可以直接按照拼音排序。因为GBK内码编码时本身就采用了拼音排序的方法(常用一级汉字3755个采用拼音排序,二级汉字就不是了),直接在查询语句后面添加ORDER BY name ASC,查询结果将按照姓氏的升序排序。
如果存储姓名的字段采用的是utf8字符集,需要在排序的时候对字段进行转码,对应的代码是ORDER BY convert(name using gbk) ASC,同样,查询的结果也是按照汉字拼音的升序排序。
比如有如下一张表:
CREATE TABLE `collation_test` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(255) DEFAULT NULL,
`pin_yin` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=10 DEFAULT CHARSET=utf8;
表中数据如下:
现在执行
select * from collation_test order by name asc
结果如下:
明显没有按照拼音排序,所以改为执行如下SQL
select * from collation_test order by convert(name using gbk) asc
结果如下:
已经是按照拼音排序了。
也可以通过修改name字段的字符集为gbk来实现,如下图:
此时建表语句改为了
CREATE TABLE `collation_test` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(255) CHARACTER SET gbk DEFAULT NULL,
`pin_yin` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=10 DEFAULT CHARSET=utf8;
然后我们直接执行
select * from collation_test order by name asc
结果如下:
可见已经按照拼音排序好了。
如果字段的值中包含数字和字母也可以排序,因为数字和字母在gbk字符集中本身就是能排序的,数字<字母<汉字,如下图: