我赌你不懂系列:char占几个字节

本文探讨了C/C++与Java中char类型的字节占用差异,以及Unicode编码和UTF-8、UTF-16的关系。在Java中,char占用2个字节,遵循UTF-16编码,某些Unicode字符可能需要两个char表示。此外,通过示例解释了String.length()方法返回的并不是字符个数,而是UTF-16代码单元的数量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

我百度搜索“char占几个字节”,得到下面的答案:

image.png

char用于C或C++中定义字符型变量,只占一个字节,取值范围为 -128 ~ +127(-27~27-1)。

char类型占1字节,就是8位,所能存储的正整数是 0111 1111,即127。

显然这不是我们想要的结果,于是我继续搜索“java中的char占几个字节”

image.png

java中的char用于存放字符的数据类型,占用2个字节,采用unicode编码,它的前128字节编码与ASCII兼容,只不过有些字符需要两个char来表示。

为什么C或C++和java中的char占用字节数不相同?

有些字符需要两个char来表示又是什么意思?

百度百度,你真是让人摸不着头脑!

编码

在讨论这个问题之前,我们先对部分知识点做一下普及。

编码

首先我们都知道计算机中储存的信息都是用二进制数表示的,那怎么样让计算机存储我们人类用的汉字或英文呢?

比如如何将'a'转换为二进制存储到计算机中,称为编码

而将存储在计算机中的二进制数解析显示出来,称为解码

字符集

字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。

这是百度百科给的解释,反正就是字符集是一些字符的集合,字符集种类多,字符集中的字符数量也各不相同。

计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。

unicode

它的名字叫统一码, 也叫万国码,符号数量在不断增加,已超百万 

在创造Unicode之前,有数百种编码系统。没有一个编码可以包含足够的字符,从它的名字就可以看出这是一种所有符号的编码,每一个符号都给予一个独一无二的编码,那么各个不同编码导致的乱码问题就会消失。

大多数计算机采用ASCII码(美国标准信息交换码),它是表示所有大小写字母、数字、标点符号和控制字符的7位编码方案。统一码(Unicode)包含ASCII码,'\u0000'到'\u007F'对应全部128个ACSII字符。

不禁让我感慨,有实力的人才能制定标准。

Unicode 只是一个符号集,它只规定了符号的二进制代码,仅仅提供字符与编号间映射,却没有规定这个二进制代码应该如何存储。
我们知道英文字母的编号特别小,用一个字节就完全能够表示,而unicode中的中文符号的编号就很大了,一个字节根本不行。
于是后面出现了unicode字符存储的多种实现方式,比如UTF-8,UTF-16等。
UTF-8 是在互联网上使用最广的一种 Unicode 的实现方式。
内码和外码

我们常说的java中的char占几个字节,应该是java中内码中的char。

内码是指java运行时,其char和string在内存中的编码方式;外码是程序与外部交互时外部使用的字符编码,比如序列化技术。
外码可以理解为:只要不是内码,那就是外码。
要注意的是,源代码编译产生的目标代码文件(可执行文件或class文件)中的编码方式属于外码。
JVM中内码采用UTF16。
UTF-16 的 16 指的就是最小为 16 位一个单元,也即两字节为一个单元。早期,UTF16采用固定长度2字节的方式编码,两个字节可以表示65536种符号(其实真正能表示要比这个少),足以表示当时unicode中所有字符。但是随着unicode中字符的增加,2个字节无法表示所有的字符,UTF16采用了2字节或4字节的方式来完成编码。Java为应对这种情况,考虑到向前兼容的要求,Java用一对char来表示那些需要4字节的字符。所以,java中的char是占用两个字节,只不过有些字符需要两个char来表示。
这里就解释了为什么有些字符需要两个char来表示的问题。

另外:Java的class文件采用UTF8来存储字符,也就是说,class中字符占1~6个字节。 Java序列化时,字符也采用UTF8编码,占1~6个字符。

length()

那再来一个问题:Java中的一个字符的String.length()是多少?

看过前面的知识点不能再张嘴就来回答是1吧......
写个demo看一下:虎年就用虎来测试吧,tigerUTF对对应unicode编码表示。

        String tiger = "🐅";
        String tigerUTF = "\uD83D\uDC05";
        System.out.println(tigerUTF);
        System.out.println(tiger.length()); //2
        System.out.println(tiger.codePointCount(0,tiger.length())); //1 

可以得出调用String.length()得到的结果为2,表示的是stirng的char数组占UTF-16格式的2个代码单元(即4个字节),而不是有多少个字符。
当然我们想要获取多少个字符,可以使用codePointCount方法来获取。

<think>嗯,用户之前问过关于ARM汇编中的LDRB和STRB指令,现在又转向询问SP(堆栈指针)相关的操作。这说明用户可能正在学习汇编语言,尤其是ARM架构的,需要逐步构建基础知识。用户提到“汇编代码中有很多对SP进行操作”,可能在实际代码中遇到了频繁的堆栈操作指令,比如PUSH、POP或者直接修改SP的指令,导致他们不太理解这些操作的作用和意义。 首先,我需要确定用户对SP的基本理解程度。SP是堆栈指针,用于管理函数调用时的局部变量、参数、返回地址等。在ARM架构中,堆栈通常是向下增长的,所以当数据压栈时,SP会减小。用户可能对堆栈的概念有所了解,但具体操作和实际应用场景还不清楚。 接下来,用户的问题可能涉及几个方面:SP的作用、为什么需要频繁操作SP、不同的堆栈操作指令有什么区别,以及如何在实际代码中识别这些操作。此外,用户可能还关心堆栈溢出、调试时的堆栈分析等问题,但当前问题主要集中在基础层面。 需要考虑到用户的学习阶段,他们可能刚接触汇编,需要从基础讲起,但之前已经接触过一些指令,所以应该避免过于简单的解释,而是结合实例和实际应用场景。需要将SP的作用与函数调用、局部变量存储、中断处理等联系起来,帮助用户理解为什么需要频繁操作SP。 同时,用户可能遇到的困惑点包括:如何区分不同的堆栈操作指令(如PUSH/POP vs STR/LDR),如何跟踪SP的变化,以及堆栈对齐的问题。此外,在调试时如何查看堆栈内容也是实际应用中的常见需求。 需要检查是否有常见的错误概念需要纠正,例如SP的增减方向,堆栈的操作是否会影响程序执行流程,以及在多任务环境中SP的作用等。另外,可能还需要提到不同架构(如x86 vs ARM)中堆栈操作的差异,但用户当前的问题集中在ARM汇编,所以可以主要针对ARM进行讲解。 最后,应该通过示例代码和具体场景,帮助用户将理论知识与实际代码结合起来,确保他们能够识别并理解SP相关的指令在程序中的作用。同时,提供调试技巧和常见问题,如堆栈溢出,可以增强实用性。</think>在汇编语言中,**SP(Stack Pointer,堆栈指针)** 是管理程序运行时内存布局的核心寄存器。它的操作贯穿整个程序的函数调用、局部变量存储、中断处理等关键环节。我们通过四个层次来深入理解: --- ### **一、SP的本质作用** 1. **硬件级定义** - SP是CPU专用寄存器(ARM中通常为R13),始终指向堆栈顶端 - 堆栈区是**后进先出(LIFO)** 的内存区域 2. **内存布局示例**(ARM架构典型情况) ```armasm High Address +----------------+ | 堆(stack) | ← SP初始位置 +----------------+ | ... | +----------------+ | 动态内存(heap) | +----------------+ | 静态数据(data) | +----------------+ | 代码段(text) | Low Address ``` 3. **关键特性** - ARM架构默认使用**满递减堆栈**(Full Descending): - 压栈时先减小SP再存数据 - 出栈时先取数据再增大SP --- ### **二、常见SP操作指令解析** #### 1. **显式修改SP** ```armasm SUB SP, SP, #16 ; 分配16字节栈空间(SP向下移动) ADD SP, SP, #24 ; 释放24字节栈空间(SP向上移动) ``` #### 2. **隐式操作指令** ```armasm PUSH {R0-R3, LR} ; 等价于 STMDB SP!, {R0-R3, LR} POP {R0-R3, PC} ; 等价于 LDMIA SP!, {R0-R3, PC} ``` #### 3. **函数调用模板** ```armasm func: PUSH {R4-R6, LR} ; 保存调用者寄存器 SUB SP, SP, #20 ; 为局部变量分配空间 ... ADD SP, SP, #20 ; 释放局部变量空间 POP {R4-R6, PC} ; 恢复寄存器并返回 ``` --- ### **三、SP操作的实际应用场景** #### 场景1:函数调用保护现场 ```armasm ; 进入函数时 PUSH {R0-R3} ; 保存参数寄存器 PUSH {LR} ; 保存返回地址 ; 函数结束时 POP {LR} ; 恢复返回地址 POP {R0-R3} ; 恢复参数 BX LR ; 返回 ``` #### 场景2:局部变量存储 ```c // 对应C代码 int func() { int a = 10; // ← 存储在SP+0位置 char buf[16]; // ← 用SP+4到SP+19 return a; } ``` 对应汇编: ```armasm SUB SP, SP, #20 ; 分配20字节空间 MOV R0, #10 ; a = 10 STR R0, [SP] ; 存储到SP+0 ... ; 使用buf时访问SP+4开始的地址 ``` #### 场景3:中断处理 ```armasm ; 中断发生时硬件自动: ; - 保存PSR到栈 ; - 保存PC到栈 ; - 更新SP ; 中断服务程序开始 PUSH {R0-R12} ; 手动保存其他寄存器 ... ; 处理中断 POP {R0-R12} ; 恢复寄存器 BX #0xFFFFFFFD ; 特殊返回指令恢复SP ``` --- ### **四、调试技巧与常见问题** #### 调试要点: 1. **内存窗口查看** 在调试器中输入 `SP-0x20` 到 `SP+0x20` 的地址范围,观察堆栈内容 2. **堆栈轨迹分析** ```armasm ; 典型调用链示例 SP+0x00: 返回地址(来自funcA) SP+0x04: 保存的R4(funcA的局部变量) SP+0x08: 返回地址(来自main) ``` 3. **对齐要求** ARMv7开始要求SP必须**4字节对齐**,使用指令时需注意: ```armasm SUB SP, SP, #17 ; 错误!17不是4的倍数 SUB SP, SP, #16 ; 正确 ``` #### 典型错误案例: ```armasm ; 错误:SP未正确恢复导致崩溃 func: PUSH {R4} ; SP减4 ... ADD SP, SP, #8 ; 错误!多释放了4字节 BX LR ``` --- ### **五、进阶概念延伸** 1. **多堆栈系统** 操作系统常使用多个堆栈指针: - **MSP(主堆栈指针)**:用于内核模式 - **PSP(进程堆栈指针)**:用于用户模式 2. **堆栈溢出检测** 现代编译器会插入金丝雀值(Canary): ```armasm ; GCC生成的栈保护代码 LDR R3, =__stack_chk_guard LDR R2, [R3] STR R2, [SP, #0x1C] ; 存入金丝雀值 ... LDR R3, [SP, #0x1C] LDR R2, =__stack_chk_guard LDR R2, [R2] CMP R3, R2 ; 检查是否被破坏 BNE __stack_chk_fail ``` 3. **动态栈分配** 当局部变量大小不确定时(如C99变长数组): ```armasm ; 对应 int func(int n) { int arr[n]; ... } MOV R0, #4 ; int类型大小 MUL R0, R0, R1 ; R1保存参数n SUB SP, SP, R0 ; 动态调整栈空间 ```
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值