python基础-理解字符编码ASCII,Unicode和UTF-8

本文介绍了字符、字符集、ASCII字符集(包括其7位二进制编码规则)、Unicode字符集(全球统一的字符编码方案)以及UTF-8字符编码(变长编码,广泛用于互联网),阐述了字符在计算机存储中的表示方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

理解:

字符:人们看的懂的字符

 例如:数值、字母、文字和符号,如:1、a、A、试、$...都表示的是一个字符,在计算机世界中,不同的字符可能需要不用的存储容量进行存储。

字符集:很多字符的集合

常见字符集如下:

  • ASCII字符集:美国人用的基本的字符的集合;
  • GB2312字符集:中国人用的字符的集合;
  • Unicode字符集 :全球的字符收集起来的集合;
字符编码:字符集在计算机中的存储
  • 在计算机存储中都是01标识,所以只能用特定的01去标识字符;
  • 把字符集映射为特定的二进制序列,是一个二进制表现的规则;

1、ASCII字符集

  • 是最早的,美国搞的字符编码;
  • ASCII 编码一共定义了128个字符的编码规则,用七位二进制表示 ( 0x00 - 0x7F )!这些字符组成的集合就叫做 ASCII 字符集!
  • 英语用128个符号编码就够了,但是用来表示其他语言,128个符号是不够的。

2、Unicode字符集

  • Unicode 是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码!
  • Unicode 字符集的编码范围是 0x0000 - 0x10FFFF , 可以容纳一百多万个字符, 每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫 码点;

3、utf-8字符编码

  • UTF-8 在互联网上使用最广的一种 Unicode 的实现方式。
  • UTF-8 最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
  • 解析 UTF-8 编码很简单:

    • 如果一个字节第一位是 0 ,则这个字节就是一个单独字符;
    • 如果第一位是 1 ,连续有几个 1 ,就表示当前字符占用几个字节;
    • 第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值