Python字符串的编码小常识

字符编码全解析

最新推荐文章于 2020-12-24 10:15:26 发布

原创最新推荐文章于 2020-12-24 10:15:26 发布 · 184 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Python编码

Python基础专栏收录该内容

35 篇文章

订阅专栏

本文深入探讨了计算机系统中字符编码的原理，包括ASCII、GBK、Shift-JIS等编码的国家背景、表示方式及缺陷，重点介绍了Unicode和UTF-8编码的特点与应用。阐述了现代计算机系统如何在内存中统一使用Unicode编码，并在存储或传输时转换为UTF-8编码的工作机制。

1.1byte=8bit

2.编码表

3.现在计算机系统通用的字符编码工作方式

1.1byte=8bit

2.编码表

编码表	国家	表示	缺陷
ASCII	美国	1个字符=1个byte=8bit	会乱码
GBK	中国	1个汉字=2个byte=16bit	会乱码
Shift-JIS	日本		会乱码
Unicode	万国（全世界）	普通:1个字符=2个byte 生僻:1个字符=4个byte	太占内容，浪费空间
UTF-8	万国（全世界）	数字：1~6个byte 英文字母:1个byte 汉字:3个byte 生僻的字符：4~6个byte

3.现在计算机系统通用的字符编码工作方式

在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。用记事本编辑的时候，从文件读取的UTF-8字符被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件。浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器。