UTF-8编码

UTF(Universal Transformation Format)即通用转换模式。它其实和Unicode是同类,就是在编码方式上不同!

      首先UTF8编码后的大小是不一定,不像Unicode编码后的大小是一样的!
      我们先来看Unicode的编码:一个英文字母 “a” 和 一个汉字 “好”,编码后都是占用的空间大小是一样的,都是两个字节!而UTF8编码:一个英文字母“a” 和 一个汉字 “好”,编码后占用的空间大小就不样了,前者是一个字节,后者是三个字节!

UTF-8编码字节含义

  • 因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来,而一个字节就是八位,所以UTF8就用一个字节来表式字母和一些键盘上的符号。然而当我们拿到被编码后的一个字节后怎么知道它的组成?它有可能是英文字母的一个字节,也有可能是汉字的三个字节中的一个字节!所以,UTF8是有标志位的!  
  • 当要表示的内容是 7位 的时候就用一个字节:0*******   第一个0为标志位,剩下的空间正好可以表示ASCII 0-127 的内容。
  • 当要表示的内容在 8 到 11 位的时候就用两个字节:110***** 10******   第一个字节的110和第二个字节的10为标志位。
  • 当要表示的内容在 12 到 16 位的时候就用三个字节:1110***** 10****** 10******    和上面一样,第一个字节的1110和第二、三个字节的10都是标志位,剩下的空间正好可以表示汉字。
  • 以此类推:      四个字节:11110**** 10****** 10****** 10****** 
      五个字节:111110*** 10****** 10****** 10****** 10****** 
      六个字节:1111110** 10****** 10****** 10****** 10****** 10****** 
      .............................................
           ..............................................
         

    
现在就让我们来看看实例吧!
红色为标志位
其它着色为了显示其编码后的位置

Unicode十六进制           B                            9D                                              A89E

Unicode二进制        00001011             00010011101                            10101000 10011110

UTF8二进制             00001010        11000010 10011101        11101010 10100010 10011110

UTF8十六进制                B                         C2 9D                                  EA A2 9E

UTF8字节数                   1                             2                                            3



因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来,而一个字节就是八位,所以UTF8就用一个字节来表
因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来,而一个字节就是八位,所以UTF8就用一个字节来表
UTF-8(Unicode Transformation Format - 8-bit)是一种针对Unicode的可变长度字符编码方式,广泛用于互联网和现代操作系统中。它能够表示所有Unicode字符集中的字符,同时保持与ASCII编码的兼容性,这使得UTF-8成为全球最常用的字符编码之一。 ### UTF-8 编码原理 UTF-8编码的核心思想是将Unicode码点(code point)转换为1到4个字节的序列,具体取决于字符的Unicode值。以下是UTF-8编码的基本规则: 1. **ASCII字符(U+0000 到 U+007F)**:这些字符在UTF-8中直接使用单个字节表示,与ASCII编码完全一致。例如,字符“A”(U+0041)在UTF-8中表示为`0x41`。 2. **多字节字符(U+0080 及以上)**:对于非ASCII字符,UTF-8使用一种前缀编码机制来表示。每个字节的高位部分用于标识该字符的编码长度以及当前字节的角色(起始字节或后续字节)。具体来说: - 2字节序列:用于表示U+0080到U+07FF范围内的字符。起始字节以`110xxxxx`的形式开头,后续字节以`10xxxxxx`的形式表示。 - 3字节序列:用于表示U+0800到U+FFFF范围内的字符。起始字节以`1110xxxx`的形式开头,后续两个字节均以`10xxxxxx`的形式表示。 - 4字节序列:用于表示U+10000到U+10FFFF范围内的字符。起始字节以`11110xxx`的形式开头,后续三个字节均以`10xxxxxx`的形式表示。 例如,字符“汉”(U+6C49)属于U+0800到U+FFFF范围,因此使用3字节序列进行编码。其二进制表示为`01101100 01001001`,拆分为三部分后,分别填充到3字节模板中,最终得到`11100110 10110001 10001001`,对应的十六进制为`E6 B1 89`。 ### UTF-8 的使用方法 UTF-8编码在实际应用中非常灵活,适用于多种编程语言和系统环境。以下是几种常见的使用场景: #### 1. **在编程语言中处理UTF-8** 大多数现代编程语言都内置了对UTF-8的支持。以下是一些常见编程语言中处理UTF-8的示例: - **Python**:Python 3默认使用UTF-8编码处理字符串。可以通过`encode()`方法将字符串编码UTF-8字节序列,通过`decode()`方法将字节序列解码为字符串。 ```python text = "你好,世界" utf8_bytes = text.encode('utf-8') # 编码UTF-8字节 decoded_text = utf8_bytes.decode('utf-8') # 解码回字符串 ``` - **JavaScript**:在Node.js环境中,可以使用`Buffer`对象来处理UTF-8编码。 ```javascript const text = "你好,世界"; const buffer = Buffer.from(text, 'utf-8'); // 编码UTF-8字节 const decodedText = buffer.toString('utf-8'); // 解码回字符串 ``` - **Java**:Java中的`String`类提供了`getBytes()`方法用于将字符串编码为指定的字符集,`new String()`构造函数可用于解码字节数组。 ```java String text = "你好,世界"; byte[] utf8Bytes = text.getBytes(StandardCharsets.UTF_8); // 编码UTF-8字节 String decodedText = new String(utf8Bytes, StandardCharsets.UTF_8); // 解码回字符串 ``` #### 2. **在网络传输中使用UTF-8** HTTP协议中,UTF-8常用于传输文本数据。服务器和客户端可以通过设置`Content-Type`头字段来指定使用的字符编码。例如: ``` Content-Type: text/html; charset=UTF-8 ``` 这表明发送的内容是HTML文档,并且使用UTF-8编码进行传输。 #### 3. **在文件操作中使用UTF-8** 处理文本文件时,确保文件内容以UTF-8编码保存和读取是非常重要的。以下是一些常见的文件操作示例: - **Python**:在打开文件时指定`encoding='utf-8'`参数。 ```python with open('example.txt', 'w', encoding='utf-8') as f: f.write("你好,世界") with open('example.txt', 'r', encoding='utf-8') as f: content = f.read() ``` - **Java**:使用`InputStreamReader`和`OutputStreamWriter`来指定字符编码。 ```java try (BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("example.txt"), StandardCharsets.UTF_8))) { String line; while ((line = reader.readLine()) != null) { System.out.println(line); } } try (BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream("example.txt"), StandardCharsets.UTF_8))) { writer.write("你好,世界"); } ``` ### 总结 UTF-8编码因其高效、兼容性强和广泛支持的特点,成为了现代软件开发和网络通信中最常用的字符编码方式。无论是在编程语言中处理字符串、在网络传输中传递数据,还是在文件操作中读写内容,UTF-8都能提供一致且可靠的编码支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值