JAVA汉字字符串按拼音排序

最新推荐文章于 2022-01-10 14:08:37 发布

原创最新推荐文章于 2022-01-10 14:08:37 发布 · 2.1k 阅读

0 ·

CC 4.0 BY-SA版权

android开发基础专栏收录该内容

35 篇文章

订阅专栏

本文介绍了一种基于GBK编码实现汉字按汉语拼音字典顺序排序的方法。通过将汉字字符串拆分为字符数组，并获取每个汉字的16进制表示，进而进行排序。

目标：实现一个汉字字符串按汉语拼音字典顺序排序。

原理：在windows环境的gbk字符集里，汉字是按汉语拼音字典顺序编码的，如“础”是B4A1，“储”是B4A2。这里有个问题就像上面的储和础这样的同音字只能遵照编码的顺序了，另外多音字也得遵照编码顺序。设计思路是先拆分汉字字符串为字符数组，获得每个汉字字符的16进制字符串表示，然后比较该字符串的字典顺序大小，排序。需要说明的是，获得汉字字符的字节数组，转换成int比较也可，实现从略。下面是实现的代码:

import java.io.UnsupportedEncodingException;

public class HanZiSort {

    public static void main(String[] args) throws UnsupportedEncodingException {
        String test = "我爱北京天安门";
        System.out.println(sort(test, "gb2312"));
    }

    public static String sort(String s, String charset) {
        char[] c = s.toCharArray();
        for (int i = 0; i < c.length - 1; i++) {
            for (int j = i + 1; j < c.length; j++) {
                if (getHexString(new String(new char[] { c[i] }), charset)
                        .compareTo(
                                getHexString(new String(new char[] { c[j] }),
                                        charset)) > 0) {
                    char temp = c[i];
                    c[i] = c[j];
                    c[j] = temp;
                }
            }

        }
        return new String(c);
    }

    public static String getHexString(String s, String charset) {
        byte[] b = null;
        StringBuffer sb = new StringBuffer();
        try {
            b = s.getBytes(charset);
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
        for (int i = 0; i < b.length; i++) {
            sb.append(Integer.toHexString(b[i] & 0xFF));
        }
        return sb.toString();
    }
}