目录
五、Unicode、UTF-8 和 ISO8859-1到底有什么区别
概述
在编程中字符编码绝对是个值得重视的问题,当读取一个文件或是得到一个输入流,你需要分析数据的编码方式、形态,以便能正确的处理、显示数据所表示的字符。
1) 在简体中文操作系统中,从键盘输入的原始字符采用的是GBK编码方式,对应到其他操作系统,采用的应是系统默认的本地字符集。而在程序设计语言中,字符和字符串则通常是使用Unicode编码方式。
2) 不仅是输入的原始字符采用GBK编码,屏幕输出的最终数据也要采用GBK编码。
一、GB2312/GBK
汉字的国标码,专门用来表示汉字,是双字节编码,而英文字母和iso8859-1一致(兼容iso8859-1编码)。其中gbk编码能够用来同时表示繁体字和简体字,而gb2312只能表示简体字,gbk是兼容gb2312编码的。
GBK即汉字内码扩展规范,K为扩展的汉语拼音中"扩"字的声母。英文全称Chinese Internal Code Specification。GBK编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,1980年由国家标准总局发布。基本集共收入汉字6763个和非汉字图形字符682个,通行于中国大陆。新加坡等地也使用此编码。GBK是对GB2312-80的扩展,也就

本文详细介绍了字符编码的基础知识,包括GBK、ISO8859-1、Unicode和UTF的区别。GBK是中国汉字编码,兼容GB2312;ISO8859-1主要应用于英文,不支持中文;Unicode是一种通用编码,支持所有语言字符;UTF是Unicode的变长编码,兼容ISO8859-1。在Python等编程语言中,理解这些编码的差异至关重要。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



