常见的字符编码

🛠️ ASCII 编码

  • 范围:0~127
  • 字节长度:1 字节
  • 主要字符集:英文字母、数字、标点符号等
  • 适用场景:适用于英文文本、编程语言、网络通信协议等
  • 示例字符A, 1, @, \n

📊 特点

  • ASCII 是最基础的字符编码标准,只包含了英语字母、数字及一些特殊符号,常用于早期的计算机系统,且与其他编码兼容。

📌 Unicode 编码

  • 范围:0~1114111(Unicode 码点)
  • 字节长度:1~4 字节(取决于具体编码形式,如 UTF-8, UTF-16, UTF-32)
  • 主要字符集:几乎所有的字符和符号,包括全球几乎所有语言
  • 适用场景:广泛应用于 Web 开发、操作系统、数据库、国际化支持
  • 示例字符, 😊, 🚀, 👩‍💻

🛠️ 特点

  • Unicode 是一个全球统一的字符集,旨在解决不同语言字符集不兼容的问题,支持世界各地的字符。通过不同的编码形式(如 UTF-8, UTF-16, UTF-32)来存储和传输字符。

Base64 编码

  • 用途:将二进制数据编码为可打印的 ASCII 字符
  • 字节长度:输出长度比原数据大约增加 33%
  • 主要用途:用于网络传输(如电子邮件、HTTP 协议),以避免二进制数据对文本传输造成的问题
  • 示例QmFzZTY0IEVuY29kaW5n

📊 特点

  • Base64 编码是一种常见的编码方法,尤其适用于将二进制数据(如图片、文件、加密数据等)转换为文本格式。它通过将 3 字节数据编码成 4 个可打印字符,常用于网络传输。

🛠️ GBK 编码

  • 范围:0x8140~0xFEFE
  • 字节长度:2 字节
  • 主要字符集:简体中文和扩展字符集
  • 适用场景:简体中文环境,中文处理
  • 示例字符, , ,

📊 特点

  • GBK 是对 GB2312 编码的扩展,支持简体中文及其他汉字字符。它常用于中国大陆的操作系统、软件及数据库中,支持大量的汉字和符号。

📌 URL 编码

  • 用途:将 URL 中的特殊字符转换为编码格式(例如,将空格编码为 %20
  • 字节长度:根据字符的不同,编码后的长度变化
  • 主要用途:用于 URL 中传输非 ASCII 字符、空格等特殊字符
  • 示例Hello%20World

🛠️ 特点

  • URL 编码是为了确保 URL 字符串的安全传输。通过将 URL 中的非字母数字字符转义成百分号(%)和十六进制的形式,确保其在 HTTP 协议中不会引发歧义或错误。

XML/JSON 编码

XML 编码
  • 用途:用于存储和传输结构化数据,通常在 Web 服务、配置文件等场景中使用
  • 字节长度:根据数据的大小和结构不同,编码后的长度变化
  • 主要用途:用于在不同系统之间交换结构化信息,尤其是在 Web 服务(SOAP)中
  • 示例
<person>
  <name>张三</name>
  <age>25</age>
</person>

📊 特点

  • XML 编码是一种可扩展标记语言,使用标签结构来表示数据,适用于复杂的数据表示和交换。它的优势是结构化和可扩展性,但相对于 JSON 来说,冗长且不够紧凑。
JSON 编码
  • 用途:用于表示轻量级的结构化数据
  • 字节长度:与 XML 相比,JSON 编码更加简洁紧凑
  • 主要用途:广泛用于 Web 开发和 API 数据交换
  • 示例
{ "name": "张三", "age": 25 }

🛠️ 特点

  • JSON 编码采用键值对的格式,非常简洁且易于人类阅读,广泛应用于 Web 开发、RESTful API 和各种数据交换场景。它比 XML 更简洁和高效,尤其是在数据量大时。

📝 总结

编码方式适用场景字节长度示例字符
ASCII英文文本,编程语言,网络协议等1 字节A, 1, @
Unicode全球多语言支持,国际化应用,Web 开发等1~4 字节, 😊, 🚀
Base64网络传输二进制数据(如图片、文件等)输出增加 33%QmFzZTY0IEVuY29kaW5n
GBK中文文本处理,支持简体和扩展字符集2 字节, ,
URL 编码在 URL 中安全传输非字母数字字符(如空格、中文等)长度变化Hello%20World
XML结构化数据存储和交换,Web 服务,配置文件等长度变化<name>张三</name>
JSON轻量级数据交换格式,API 开发等长度变化{ "name": "张三", "age": 25 }

参考资源链接:[数据标注入门:存储与编码详解](https://wenku.youkuaiyun.com/doc/3brpx5td6c?utm_source=wenku_answer2doc_content) 选择正确的文本文件字符编码是数据存储和交换中非常关键的一步,尤其是对于数据标注领域,准确的字符编码能确保信息的正确解析和显示。在《数据标注入门:存储与编码详解》这份PPT课件中,详细讲解了字符编码的知识点,包括ASCII、GB2312、Unicode和UTF-8等常见编码方式。其中,ASCII编码使用7位二进制数来表示字符,只能编码128个字符,主要是英文字符和一些控制字符。GB2312是对ASCII的扩展,使用了两位字节表示中文字符,共收录了6000多个汉字,但无法处理更复杂的中文字符集。Unicode设计用来包含所有字符集,使用至少16位来表示字符,理论上可以表示65536个字符。而UTF-8是Unicode的转换格式之一,采用可变长度编码方式,兼容ASCII,又能编码几乎所有的字符集。在选择字符编码时,需要考虑数据的来源、目标用户的操作系统以及是否需要支持多语言等要素。例如,如果数据主要涉及中文,则使用UTF-8编码是最合适的,它能够保证文本的正确存储和兼容性。通过了解这些编码之间的差异,我们可以根据实际需求选择最合适的编码方式,从而避免数据损坏和信息丢失的问题。 参考资源链接:[数据标注入门:存储与编码详解](https://wenku.youkuaiyun.com/doc/3brpx5td6c?utm_source=wenku_answer2doc_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值