一个字符串中到底能有多少个字符? 我竟然算错了!

本文深入探讨Java中字符编码的内部实现,特别是UTF-16编码如何处理Unicode字符,包括基本多语言平面(BMP)和增补平面字符的编码方式。文章通过实例解释了String.length(), String.getBytes()和String.toCharArray()在不同字符类型下的行为差异。

来源:rrd.me/fpv95

依照Java的文档, Java中的字符内部是以UTF-16编码方式表示的,最小值是 \u0000 (0),最大值是\uffff(65535), 也就是一个字符以2个字节来表示,难道Java最多只能表示 65535个字符?

char: The char data type is a single 16-bit Unicode character. It has a minimum value of '\u0000' (or 0) and a maximum value of '\uffff' (or 65,535 inclusive).

from The Java™ Tutorials

首先,让我们先看个例子:

public class Main {
    public static void main(String[] args) {
        // 中文常见字
        String s = "你好";
        System.out.println("1. string length =" + s.length());
        System.out.println("1. string bytes length =" + s.getBytes().length);
        System.out.println("1. string char length =" + s.toCharArray().length);
        System.out.println();
        // emojis
        s = "????????";
        System.out.println("2. string length =" + s.length());
        System.out.println("2. string bytes length =" + s.getBytes().length);
        System.out.println("2. string char length =" + s.toCharArray().length);
        System.out.println();
        // 中文生僻字
        s = "????妹";
        System.out.println("3. string length =" + s.length());
        System.out.println("3. string bytes length =" + s.getBytes().length);
        System.out.println("3. string char length =" + s.toCharArray().length);
        System.out.println();
    }
}

运行这个程序,你觉得输出结果是什么?

输出结果:

1. string length =2
1. string bytes length =6
1. string char length =2
2. string length =4
2. string bytes length =8
2. string char length =4
3. string length =3
3. string bytes length =7
3. string char length =3

我们知道, String.getBytes()如果不指定编码格式,Java会使用操作系统的编码格式得到字节数组,在我的MacOS中,默认使用UTF-8作为字符编码(locale命令可以查看操作系统的编码),所以在我的机器运行,String.getBytes()会返回UTF-8编码的字节数组。

  • String.length返回Unicode code units的长度。

  • String.toCharArray返回字符数组。

我们设置的字符串都是两个unicode字符,输出结果:

  • 普通的中文字:字符串的长度是2,每个中文字按UTF-8编码是三个字节,字符数组的长度看起来也没问题

  • emojis字符:我们设置了两个emojis字符,男女头像。结果字符串的长度是4, UTF-8编码8个字节,字符数组的长度是4

  • 生僻的中文字:我们设置了两个中文字,其中一个是生僻的中文字。结果字符串的长度是3, UTF-8编码7个字节,字符数组的长度是3

看起来字符串的字符数和我们预期的有点不一样,我们的字符串只有两个unicode字符, 可是输出结果有时候是2,有时候是3, 有时候是4,为什么呢?

这还得从Java的历史说起。

Java最初设计的Charactor用两个字节来表示unicode字符,这没有问题, 因为最初unicode中的字符还比较少, Java 1.1之前采用Unicode version 1.1.5, JDK 1.1中支持Unicode 2.0, JDK 1.1.7支持Unicode 2.1, Java SE 1.4 支持 Unicode 3.0, Java SE 5.0开始支持Unicode 4.0。

直到Unicode 3.0, Java用两个字节来表示unicode字符还没有问题,因为Unicode 3.0最多49,259个字符, 两个字节可以表示65,535个字符,还足够容的下所有的uicode3.0字符。

但是Unicode 4.0(事实上自Unicode 3.1), 字符集进行很大的扩充,已经达到了96,447个字符,Unicode 11.0已经包含137,374个字符。

在Unicode中,为每一个字符对应一个编码点(一个整数),用 U+紧跟着十六进制数表示。所有字符按照使用上的频繁度划分为 17 个平面(编号为 0-16),即基本的多语言平面和增补平面。基本的多语言平面(英文为 Basic Multilingual Plane,简称 BMP)又称平面 0,收集了使用最广泛的字符。

这样一来,Java的Charactor的两个字节的设计,已经不足以容纳所有的Unicode 4的字符, 所以可能需要4个字节才能表示扩展字符,所以现在的Charactor代表的已经不再是一个字符 (代码点 code point), 而是一个代码单元(code unit)。

  • Code Point:代码点,一个字符的数字表示。一个字符集一般可以用一张或多张由多个行和多个列所构成的二维表来表示。二维表中行与列交叉的点称之为代码点,每个码点分配一个唯一的编号数字,称之为码点值或码点编号,除开某些特殊区域(比如代理区、专用区)的非字符代码点和保留代码点,每个代码点唯一对应于一个字符。从U+0000 到 U+10FFFF。

  • Code Unit:代码单元,是指一个已编码的文本中具有最短的比特组合的单元。对于 UTF-8 来说,代码单元是 8 比特长;对于 UTF-16 来说,代码单元是 16 比特长。换一种说法就是 UTF-8 的是以一个字节为最小单位的,UTF-16 是以两个字节为最小单位的。

Java的字符在内部以UTF-16编码方式来表示,String.length返回的是Code Unit的长度,而不再是Unicode中字符的长度。对于传统的BMP平面的代码点,String.length和我们传统理解的字符的数量是一致的,对于扩展的字符,String.length可能是我们理解的字符长度的两倍。

有可能你会问, 对于一个UTF-16编码的扩展字符,它以4个字节来表示,那么前两个字节会不会和BMP平面冲突,导致程序不知道它是扩展字符还是BMP平面的字符?

其实是不会的, 幸运的是, 在BMP平面中, U+D800到U+DFFF之间的码位是永久保留不映射到Unicode字符,UTF-16就利用保留下来的0xD800-0xDFFF区块的码位来对辅助平面的字符的码位进行编码。

UTF-16编码中,辅助平面中的码位从U+10000到U+10FFFF,共计FFFFF个,需要20位来表示。第一个整数(两个字节,称为前导代理)要容纳上述20位的前10位,第二个整数(称为后尾代理)容纳上述20位的后10位。前导代理的值的范围是0xD800到0xDBFF,后尾代理的0xDC00~0xDFFF。

可以看到前导代理和后尾代理的范围都落在了BMP平面中不用来映射的码位,所以不会产生冲突,而且前导代理和后尾代理也没有重合。这样我们得到两个字节的,就可以直接判断它是否是BMP平面的字符,还是扩展字符中的前导代理还是后尾代码。

国外的有些用户用emojis字符做自己的昵称,导致有些系统不能正确的显示出来,这是因为这些系统粗暴的使用Charactor来表示,在显示的时候截断的时候有时候可能不是在正确的代码点上进行截断。

我们在进行字符串截取的时候,比如String.substring有可能会踩到一些坑,尤其经常使用的emojis字符。

自 Java 1.5 java.lang.String就提供了Code Point方法, 用来获取完整的Unicode字符和Unicode字符数量:

public int codePointAt(int index)
public int codePointBefore(int index)
public int codePointCount(int beginIndex, int endIndex)

注意这些方法中的index使用的是code unit值。

<think>好的,用户问一万个字符串“test report interface”是多少MB。首先我需要确定每个字符串的大小,然后计算总数据量。 首先,这个字符串的内容是英文字符和空格,所以每个字符在ASCII编码下是1字节。不过实际存储可能会用不同的编码方式,比如UTF-8,但英文字符在UTF-8里也是1字节,所以影响不大。 接下来,我需要算出单个字符串的字节数。字符串是“test report interface”,去掉引号的话,数一下字符数。t-e-s-t-空格-r-e-p-o-r-t-空格-i-n-t-e-r-f-a-c-e,总共是4+1+6+1+9=20个字符?或者可能数错了,应该再仔细数一遍。test是4个,report是6个,interface是9个,中间有两个空格,所以总共有4+1+6+1+9=21个字符?或者可能中间的空格算两次?比如“test report interface”总共有4(test) + 1(空格) + 6(report) + 1(空格) + 9(interface)= 21个字符。每个字符1字节,所以每个字符串是21字节。 然后,一万个这样的字符串就是21字节 * 10,000 = 210,000字节。接下来转换成MB。这里需要注意二进制和十进制的换算方式。通常,1MB是1024KB,而1KB是1024字节,所以1MB=1024*1024=1,048,576字节。所以210,000字节除以1,048,576等于约0.2003MB。如果用户用的是十进制的话,1MB是1,000,000字节,那么就是0.21MB。不过通常计算机中使用二进制换算,所以结果大约是0.2MB左右。 不过,可能要考虑存储结构的开销。比如在Python中,字符串对象本身会有额外的内存用,比如长度信息、引用计数等,但用户的问题可能只是单纯问字符串内容的大小,不考虑这些额外开销。所以应该只需要计算字符本身的大小。 另外,如果用户使用的是Unicode编码,比如每个字符2字节(如UTF-16),那么结果会翻倍。但问题中没有说明编码方式,所以默认应该是ASCII或UTF-8下的英文字符,即每个字符1字节。 总结:每个字符串21字节,一万个就是210,000字节,约0.2MB(二进制换算)。</think>一万个字符串“test report interface”的存储大小计算如下: --- ### **1. 单个字符串的字节数** - **字符串内容**:`"test report interface"`(不含引号) - **字符数**:21个字符(含空格) - **编码方式**:假设为ASCII或UTF-8(英文字符1字节) - **单个字符串大小**:21字节 --- ### **2. 一万个字符串的总字节数** $$ 21 \text{字节/字符串} \times 10,000 \text{字符串} = 210,000 \text{字节} $$ --- ### **3. 转换为MB** - **二进制换算**(1MB = $1024 \times 1024$ 字节): $$ \frac{210,000}{1024 \times 1024} \approx 0.20 \text{MB} $$ - **十进制换算**(1MB = $1000 \times 1000$ 字节): $$ \frac{210,000}{1000 \times 1000} = 0.21 \text{MB} $$ --- ### **4. 实际存储影响因素** 1. **编码开销**: - 若使用UTF-16(中文2字节),英文字符仍为2字节/字符,总大小翻倍(约0.4MB)。 - 若包含Unicode字符(如表情符号),部分字符可能4字节。 2. **语言实现开销**: - Python的`str`对象需额外存储类型信息、长度、哈希等(约40~80字节/字符串)。 - C++的`std::string`可能动态分配内存,额外用少量元数据空间。 3. **压缩影响**: - 若使用压缩算法(如gzip),文本压缩率可达50%~70%,实际用约0.06~0.1MB。 --- ### **5. 示例代码验证** ```python s = "test report interface" size_per_str = len(s.encode('utf-8')) # UTF-8编码下字符数 total_size = size_per_str * 10_000 print(f"单个字符串大小: {size_per_str} 字节") print(f"总大小: {total_size} 字节 → {total_size / (1024**2):.2f} MB") ``` --- ### **结论** - **理论最小值**:约 **0.20~0.21MB**(不考虑存储结构开销)。 - **实际内存用**:可能因编程语言或存储格式增加额外开销(例如Python中实际用可能超过1MB)。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值