String.length() 方法返回的是字符串中的 字符数,而不是字节数

在 Java 中,String.length() 方法返回的是字符串中的 字符数,而不是字节数。这里的“字符”是指 Unicode 编码中的一个代码单元(code unit),而不是字节。

具体解释:

  1. 字符数 vs 字节数

    • String.length() 返回的是字符串中 UTF-16 编码的代码单元数量
    • 每个字符在 Java 的 String 中是以 UTF-16 编码存储的,大多数常见字符(如英文字母、数字、标点符号)只需要一个代码单元(即 2 字节),而一些特殊字符(如某些汉字、表情符号等)可能需要两个代码单元(即 4 字节)。
  2. 汉字的表示

    • 在 UTF-16 编码中,大部分汉字(如常见的简体和繁体汉字)只需要一个代码单元(2 字节),因此对于这些汉字,String.length() 会将其计为 1 个字符。
    • 但是,对于一些特殊的汉字或扩展字符(如 Unicode 扩展区的字符),它们可能需要用到两个代码单元(4 字节),在这种情况下,String.length() 会将其计为 2 个字符。
    • 英文字符(如字母、数字、标点符号等)通常占 1 个字符
public class Test {
    public static void main(String[] args) {
        String str1 = "你好"; // 常见汉字
        System.out.println("str1 长度:" + str1.length()); // 输出 2

        String str2 = "\uD83D\uDE00"; // 表情符号 😊
        System.out.println("str2 长度:" + str2.length()); // 输出 2

        String str3 = "a😊b"; // 包含字母和表情符号
        System.out.println("str3 长度:" + str3.length()); // 输出 4
    }
}

总结:

  • String.length() 返回的是 UTF-16 代码单元的数量,也就是字符数。
  • 对于常见的汉字,通常是一个代码单元(2 字节),计为 1 个字符。
  • 对于特殊字符(如表情符号或扩展区字符),可能需要两个代码单元(4 字节),计为 2 个字符。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值