【GBK、UTF-8、ISO8859-1、Unicode】四种编码方式的总结:

本文详细介绍了字符编码的基础知识,包括GBK、ISO8859-1、Unicode和UTF的区别。GBK是中国汉字编码,兼容GB2312;ISO8859-1主要应用于英文,不支持中文;Unicode是一种通用编码,支持所有语言字符;UTF是Unicode的变长编码,兼容ISO8859-1。在Python等编程语言中,理解这些编码的差异至关重要。

目录

         概述

一、GB2312/GBK 

二、 iso8859-1 通常叫做Latin-1

三、UTF

四、unicode 

五、Unicode、UTF-8 和 ISO8859-1到底有什么区别

六、python编码


概述

在编程中字符编码绝对是个值得重视的问题,当读取一个文件或是得到一个输入流,你需要分析数据的编码方式、形态,以便能正确的处理、显示数据所表示的字符。

 1)  在简体中文操作系统中,从键盘输入的原始字符采用的是GBK编码方式,对应到其他操作系统,采用的应是系统默认的本地字符集。而在程序设计语言中,字符和字符串则通常是使用Unicode编码方式。

 2) 不仅是输入的原始字符采用GBK编码,屏幕输出的最终数据也要采用GBK编码。

一、GB2312/GBK 

       汉字的国标码,专门用来表示汉字,是双字节编码,而英文字母和iso8859-1一致(兼容iso8859-1编码)。其中gbk编码能够用来同时表示繁体字和简体字,而gb2312只能表示简体字,gbk是兼容gb2312编码的。 

GBK即汉字内码扩展规范,K为扩展的汉语拼音中"扩"字的声母。英文全称Chinese Internal Code Specification。GBK编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,1980年由国家标准总局发布。基本集共收入汉字6763个和非汉字图形字符682个,通行于中国大陆。新加坡等地也使用此编码。GBK是对GB2312-80的扩展,也就

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值