字符集和字符编码

0. 字符

:大家平时看到的符号,用来组成某种句子、语言

如 A B 张三

 

1. 字符集

每一种语言都有一个字符集,如英语有26个字符.....

 

2. 编码字符集(数字的集合)

:一个编码字符集是一个字符集的的编码形式,即为每个字符分配一个唯一的数字

如 ASCII :分配128个字符

     扩展ASCII:分配256个字符

    Unicode:包括了全人类字符,全人类字符的编码是Unicdoe的一个子集

ASCII和扩展的ASCII、Unicode都是一种表示字符集的编码方式,(假设)如字符a 对应0101010.....

每个字符都有对应的唯一2进制

(字符集越大,需要的字节数就越多)

 

3. 代码

代码点:代码点就是数字的集合

编码字符集合:是有效的代码点集合,已经用于表示字符的数字

如:Unicode的编码字符集合是:U+0000 -- U+10FFFF

      而这个编码字符集合可以看成是属于 0---2的32次方-1  代码点范围的集合的

 

总结:

字符---字符集--map number--编码字符集---utf-8 utf-9-...---字符编码后的数据

 

4. 字符编码方案( 如utf-8 utf-16 utf-32 )

注意:

     一般我们说的Unicode实际是:UTF-16字符编码的Unicode

 

以Unicode( 是编码字符集 )为例

 

由于字符 a b c d等只需1个字节就可以保存,但Unicode为容纳所有的语言的字符集,统一使用32位来表示每个字符

这样在网络传输时 对只需1个字节表示的字符,造成了浪费

 

Unicode支持以下3种字符编码:

 

1. UTF-8 :这是HTML和协议常用的,这里把Unicode字符转换成一种长度可变的字节编码。与ASCII集对应的Unicode字符,采用8位来表示,并且转变成UTF-8的Unicode字符可以再许多现有的软件找使用,如大多数浏览器支持UTF-8字符编码

 

2. UTF-16 :把较为常用的字符采用16位的代码单元表示,其它的用32位

 

3.UTF-32 :采用32位来表示每个字符,不是很好的选择。

 

(具体看文档或百度)

 

或者这篇文章:

http://www.doc88.com/p-99650883920.html

 

 

               String s = "\u03C0w\uD835\uDD6B\uD835\uDD6B";
		System.out.println(s.length());
		
		int codePointCount = s.codePointCount(0,s.length());
		System.out.println(codePointCount);
		
		int index = 0;
		int cp = 0;
		
		for(int i =0;i<s.length();i++)
			System.out.println((int)s.charAt(i));
		System.out.println("-----");
		
		for(int i =0;i<codePointCount;){
			index = s.offsetByCodePoints(0, i);
			System.out.println("index= "+index);
			cp = s.codePointAt(index);
			if(Character.isSupplementaryCodePoint(cp)){
				System.out.println(cp+" i ="+i);
				i++;
			}
			else
				i++;
		}

 

### 字符集字符编码的区别详解 字符集(Character Set)字符编码(Character Encoding)是计算机处理文本时两个密切相关但不同的概念。以下是它们的详细区别: #### 1. 字符集的定义 字符集是指一组特定的字符集合,它定义了哪些字符可以被表示。例如,ASCII字符集包含128个字符,包括英文字母、数字一些符号[^3]。字符集的作用是规定“有哪些字符可用”,而不涉及这些字符如何存储在计算机中。 #### 2. 字符编码的定义 字符编码则是将字符集中的每个字符映射为计算机能够理解的二进制形式的过程。换句话说,字符编码定义了“如何用字节表示字符”。例如,在ASCII编码中,字母`A`被编码为`01000001`[^3]。字符编码的作用是确保字符能够在计算机中正确存储传输。 #### 3. 关系与区别 - **关系**:字符集字符编码的基础。一个字符编码方案必须基于某个字符集。例如,UTF-8是一种字符编码方案,它基于Unicode字符集。 - **区别**: - 字符集仅定义了字符的集合,而字符编码则定义了这些字符如何被表示为字节序列。 - 同一个字符集可以有多种编码方式。例如,Unicode字符集可以通过UTF-8、UTF-16或UTF-32进行编码[^1]。 - 字符编码还决定了一个字符占用多少字节。例如,在GBK编码中,中文字符通常占用2个字节,而在UTF-8编码中,中文字符可能占用3个字节[^4]。 #### 4. 实际应用示例 以下是一个简单的Python代码示例,展示如何使用字符编码进行字符串的编码解码操作: ```python # 原始字符串 original_string = "你好,世界!" # 使用UTF-8编码将字符串转换为字节 encoded_bytes = original_string.encode('utf-8') print(f"UTF-8编码后的字节: {encoded_bytes}") # 使用GBK编码将字符串转换为字节 encoded_bytes_gbk = original_string.encode('gbk') print(f"GBK编码后的字节: {encoded_bytes_gbk}") # 将字节解码回字符串 decoded_string = encoded_bytes.decode('utf-8') print(f"解码后的字符串: {decoded_string}") ``` #### 5. 总结 字符集字符编码是文本处理中不可或缺的概念。字符集定义了字符的范围,而字符编码则定义了字符的存储方式。在实际开发中,选择合适的字符集编码方式对于确保数据的正确性兼容性至关重要。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值