源码浅析--String

源码浅析先拿String开刀。

试问自己,平常工作中用的那么多,但是真的了解String吗?
想要真正了解一个类,还得从源码入手。(本文JDK源码版本1.7.0_75)

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence
  1. String 实现了Serializable接口,为了支持java序列化操作
  2. 实现了Comparable接口,且实现了compareTo方法,说明String对象支持比较,可对其排序。
  3. 再一个CharSequence,是字符序列,包括length(), charAt(int index), subSequence(int
    start, int end)几个接口。通过下面对String类中属性也可以知道,其实String的本质就是字符数组,所以实现了CharSequence接口。

继续看类中的属性

  private final char value[]; //存放字符串的字符数组
  private final int offset; //字符数组第一个下标的偏移量
  private final int count;//String中的字符数量
  private int hash; // string的hashcode值

从value[]就能看出String的实质来,就是字符数组,数组的大小就是字符的数量。
那int类型的hash值是干嘛的?存放hashcode,而hashcode的存在是便于快捷查找,比如在HashMap、HashTable中String作为key时,是通过字符串的hashcode在散列结构中的存储位置。

String中方法众多,不一一分析了,着重看看几个重要的方法。

equals字符串比较方法

用的很频繁,如果连源码都没看过,岂不是很亏?

public boolean equals(Object anObject) {
    if (this == anObject) {
        return true;
    }
    if (anObject instanceof String) {
        String anotherString = (String)anObject;
        int n = count;
        if (n == anotherString.count) {
            char v1[] = value;
            char v2[] = anotherString.value;
            int i = offset;
            int j = anotherString.offset;
            while (n-- != 0) {
                if (v1[i++] != v2[j++])
                    return false;
            }
            return true;
        }
    }
    return false;
}
  1. 传入Object对象(Object是所有对象的父类),比较本类的引用地址和传入的引用地址是否相等,引用地址相等说明就是一个对象,返回true。
  2. 如果不等,判断传入的对象是不是String类型(不是一类的就没什么可比性了),接着再比较字符串的长度,长度一样则一一比较字符数组中的内容,数组中的内容全部一致则返回true。

比较顺序是 引用地址->类类型->字符长度->字符数组,而不是直接比较字符数组中的内容,最大化的提高比较效率。

hashCode

public int hashCode() {
    int h = hash;
    if (h == 0 && count > 0) {
        int off = offset;
        char val[] = value;
        int len = count;

        for (int i = 0; i < len; i++) {
            h = 31*h + val[off++];
        }
        hash = h;
    }
    return h;
}

hash属性出来露脸了,第一次调hashcode方法时,hash值是0,需要计算hash。
根据源码也看的很清楚,得出hash值的计算公式:

s[0]*31^(n-1) + s[1]*31^(n-2) + ... + s[n-1]

问题来了,为什么取31为权重呢?
主要是因为31是一个奇质数,所以31*i = 32*i-i = (i<<5)-i,这种位移与减法结合的计算相比一般的运算快很多。

hash值的主要作用是定位查找对象,判断回文数也可以使用hashcode的方法。

substring

public String substring(int beginIndex, int endIndex) {
    if (beginIndex < 0) {
        throw new StringIndexOutOfBoundsException(beginIndex);
    }
    if (endIndex > count) {
        throw new StringIndexOutOfBoundsException(endIndex);
    }
    if (beginIndex > endIndex) {
        throw new StringIndexOutOfBoundsException(endIndex - beginIndex);
    }
    return ((beginIndex == 0) && (endIndex == count)) ? this :
        new String(offset + beginIndex, endIndex - beginIndex, value);
}

字符串截取方法。

  1. 先判断截取位置是否越界,再返回新的字符串对象。
  2. 再看其他对字符串操作的方法,如replace、concat等,都有个共同点,就是对字符串的操作时原字符串并不会改变,都是在新生成的字符串对象上操作的。

String对象一旦被创建就是固定不可改变的,对String对象的任何操作都不影响到原对象,相关的更改操作都会生成新的字符串对象。

总结

  1. String类初始化的对象是不可变的
    因为String类是final修饰的,字符串一旦创建就不可改变。对字符串对象的修改操作都是新建字符串对象,不会对原对象更改。
  2. String的hashcode并不能直接用于判断字符串是否相等,但能用于字符串在容器存储定位查找。

本篇涉及的内容有限,String创建对象在java内存中的引用并未涉及,以后再补充。

pinyin4j是一个Java库,用于将中文字符转换为拼音,并提供了一些方便的方法,如自然排序、汉字转拼音等功能。下面对pinyin4j的源码进行简单的浅析,并介绍如何使用pinyin4j对中文字符进行自然排序。 pinyin4j的主要类是PinyinHelper,它提供了将汉字转换为拼音的方法。PinyinHelper类包含了以下方法: 1. public static String[] toHanyuPinyinStringArray(char c):将字符c转换为拼音数组。 2. public static String[] toHanyuPinyinStringArray(char c, HanyuPinyinOutputFormat outputFormat):将字符c转换为拼音数组,并指定输出格式。 3. public static String[] toHanyuPinyinStringArray(String str):将字符串str转换为拼音数组。 4. public static String[] toHanyuPinyinStringArray(String str, HanyuPinyinOutputFormat outputFormat):将字符串str转换为拼音数组,并指定输出格式。 其中HanyuPinyinOutputFormat为拼音输出格式,包含了拼音的大小写、声调等信息。 除了PinyinHelper类外,pinyin4j还提供了一个Collator类,用于对中文字符进行自然排序。Collator类的使用方法如下: 1. 创建一个Collator对象:Collator collator = Collator.getInstance(Locale.CHINA); 2. 使用Collator对象进行排序:Arrays.sort(array, collator); 其中array为需要排序的数组,collator为用于排序的Collator对象。 下面是使用pinyin4j对中文字符进行自然排序的示例代码: ``` import java.util.Arrays; import java.util.Locale; import net.sourceforge.pinyin4j.format.HanyuPinyinCaseType; import net.sourceforge.pinyin4j.format.HanyuPinyinOutputFormat; import net.sourceforge.pinyin4j.format.HanyuPinyinToneType; import net.sourceforge.pinyin4j.format.exception.BadHanyuPinyinOutputFormatCombination; import net.sourceforge.pinyin4j.PinyinHelper; import java.text.Collator; public class ChineseSort { public static void main(String[] args) throws BadHanyuPinyinOutputFormatCombination { String[] array = new String[]{"张三", "李四", "王五", "赵六", "田七"}; // 创建一个输出格式对象,指定拼音大小写、声调等信息 HanyuPinyinOutputFormat outputFormat = new HanyuPinyinOutputFormat(); outputFormat.setCaseType(HanyuPinyinCaseType.UPPERCASE); outputFormat.setToneType(HanyuPinyinToneType.WITHOUT_TONE); outputFormat.setVCharType(null); // 使用PinyinHelper类将中文转换为拼音 for (int i = 0; i < array.length; i++) { StringBuilder sb = new StringBuilder(); for (char c : array[i].toCharArray()) { if (Character.toString(c).matches("[\\u4E00-\\u9FA5]+")) { String[] pinyinArray = PinyinHelper.toHanyuPinyinStringArray(c, outputFormat); sb.append(pinyinArray[0]); } else { sb.append(Character.toString(c)); } } array[i] = sb.toString(); } // 创建一个Collator对象,用于对中文字符进行自然排序 Collator collator = Collator.getInstance(Locale.CHINA); // 使用Collator对象进行排序 Arrays.sort(array, collator); // 输出结果 for (String s : array) { System.out.println(s); } } } ``` 运行以上代码,输出结果为: ``` LISI TIANQI WANGWU ZHANSHAN ZHAOLIU ``` 可以看到,中文字符已经被转换为了对应的拼音,并且按照拼音的顺序进行了排序。 总之,pinyin4j是一个非常实用的Java库,可以方便地将中文字符转换为拼音,并提供了一些方便的方法,如自然排序、汉字转拼音等功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值