闲话字符编码(未完待续...)

本文详细介绍了字符编码的概念,特别关注了UNICODE字符集的特性与编码方式,包括UTF-8编码原理及变长编码哈夫曼编码,解释了UNICODE与内存表示之间的区别,以及代码点在不同编码方式下的表示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是编码

以下定义引用自wikipedia:

“字符编码(Character encoding)是一套法则,使用该法则能够对自然语言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。”

提炼一下,“字符编码是一套法则”,例如大写字母A的ACSII码值为65(二进制表示01000001)。

狭义上讲字符编码应该是一一对应的。下文讨论的都是这种编码

编码的种类

按编码长度是否定长可分为定长编码以及变长编码,例如我们平常接触最多的UTF-8
就是变长编码。其编码长度为(1~4)字节不等。
本文着重讲一下变长编码

大学的数据结构教科书也介绍了一种变长编码:
哈夫曼编码(Huffman Coding)

变长编码也称为权编码,最常见的权重基于统计得到的字符出现的频率

UTF-8编码

(Unicode符号范围 十六进制)(UTF-8编码方式 二进制)
0000 0000-0000 007F0xxxxxxx
0000 0080-0000 07FF110xxxxx 10xxxxxx
0000 0800-0000 FFFF1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

可以通过二叉树编码法证明其正确性(任意一个字符的编码不是其他字符的前缀码)。

被误解的UNICODE 字符集

学计算机的同学们最先接触的编码方式往往是ASCII编码,而在以大写字母A为例,其二进制编码值为01000001, 并且它在内存中的值也为01000001。 所以我们也十分想当然的认为 UNICODE编码中某个字符的编码值(其实这种说法不准确),也是它真实在内存中的值。我自己也被这种想法坑了很久。(谁让他们一个翻译成ASCI字符集一个翻译成UNICODE字符集,而且都有所谓的”编码表”)

简单的来讲,UNICODE只是一个字符集和,也就是应该包括哪些字符,而这些字符具体怎么表示,用多少位表示,并没有规定。那么我们平时写代码时'\u041F'又是啥呢,这是UNICODE的 code point(中文翻译为:码点 我也不喜欢这个翻译)。具体在内存中怎么表示和具体的编码(例如 UTF-8 或者UTF-16有关,当然Java采用的是UTF-16),这样做有什么好处呢。(回忆一下面向对象编程中的依赖于接口而不是实现,聪明的你是不是有些明白了呢?)。

code point是啥?

UNICODE 定义了字符集以及这些和这些字符一一对应的code point
UNICODE 88 的 code point 取值范围为 U+0000~U+FFFF,但是地球人太会玩啦,65536已经无法满足人类的符号表示需求,UNICODE 6.0的code point取值范围为U+0000~U+10FFFF,这么一改对Java影响可不小啊,Java字符在内存中原本就是UTF-16编码的,没升级之前还可以认为是个定长编码。现在一升级,咋办?只能变成变长编码喽,采用多个UTF-16字符表示一个。所以也就引入了 code unit 的概念。一般而言对于UTF-X 其一个code unit 长度为X比特。

参考资料

内容概要:本文档详细介绍了基于事件触发扩展状态观测器(ESO)的分布式非线性车辆队列控制系统的实现。该系统由N+1辆车组成(1个领头车和N个跟随车),每辆车具有非线性动力学模型,考虑了空气阻力、滚动阻力等非线性因素及参数不确定性和外部扰动。通过事件触发ESO估计总扰动,基于动态面控制方法设计分布式控制律,并引入事件触发机制以减少通信和计算负担。系统还包含仿真主循环、结果可视化等功能模块。该实现严格遵循论文所述方法,验证了观测误差有界性、间距误差收敛性等核心结论。 适合人群:具备一定编程基础,对非线性系统控制、事件触发机制、扩展状态观测器等有一定了解的研发人员和研究人员。 使用场景及目标:①研究分布式非线性车辆队列控制系统的理论与实现;②理解事件触发机制如何减少通信和计算负担;③掌握扩展状态观测器在非线性系统中的应用;④学习动态面控制方法的设计与实现。 其他说明:本文档不仅提供了详细的代码实现,还对每个模块进行了深入解析,包括非线性建模优势、ESO核心优势、动态面控制与传统反步法对比、事件触发机制优化等方面。此外,文档还实现了论文中的稳定性分析,通过数值仿真验证了论文的核心结论,确保了系统的稳定性和有效性。建议读者在学习过程中结合代码进行实践,并关注各个模块之间的联系与相互作用。
内容概要:本文档《c预约面试大全.pdf》汇集了大量C语言及其相关领域的面试问题与解答,涵盖了从基础概念到高级技巧的广泛知识点。主要内容包括但不限于:C语言的基础语法(如static关键字的作用、指针与引用的区别)、数据结构(如平衡二叉树、链表操作)、算法(如冒泡排序的时间复杂度)、计算机网络(如TCP/IP协议栈)、操作系统(如进程和线程的区别)、内存管理(如堆栈差异)等方面。此外,还涉及了一些较为复杂的主题,例如位域的应用、编译原理中的预编译概念、以及针对特定问题的编程实现(如寻找数组中的重复数字、实现约瑟夫环问题等)。每个问题都配有详细的解释或代码示例,旨在帮助求职者全面准备C语言相关的技术面试。 适合人群:正在准备C语言及相关领域(如嵌入式开发、系统编程)工作的求职者,尤其是有一定编程基础但缺乏实战经验的技术人员。 使用场景及目标:①帮助读者深入理解C语言的核心概念和技术细节;②通过实际案例分析提升解决复杂问题的能力;③为参加各类技术面试做好充分的知识储备和心理准备。 其他说明:此文档不仅包含了理论知识,还提供了大量实战练习的机会,鼓励读者动手实践,从而更好地掌握所学内容。同时,文档中的问题难度逐步递增,适合不同层次的学习者按需选择。由于C语言是许多高级编程语言的基础,因此这份资料对于想要深入学习计算机科学的学生也非常有价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值