day3--计算机储存容量及字符编码

本文介绍了计算机的存储容量单位,从位到字节,再到KB、MB、GB、TB、PB的转换。同时,重点讲解了ASCII、GB2312、GBK、BIG5等字符编码表的发展和差异,以及Unicode和UTF-8的关系与应用。在Python编程中,了解这些编码对于处理不同编码的文件至关重要,特别是Python2和Python3之间的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

计算机容量:
1位 = 1bit
8bit = 1byte = 1字节
1024bytes = 1kbytes =1KB 1024个字符,小文档 ,几百k可以表示一张图片
1024KB = 1Million Bytes = 1MB = 1兆 , 几万字的文档, 大图片
1024MB = 1Gigabytes,一个清晰的电影,不是高清,高清能达到数10个g
1024GB = 1TB
1024TB = 1PB

ASCII表的作用:将二进制翻译成人能看懂的字符
ASCII每一个字符统一都需要8个bit来存储

支持中文的第一张编码表是GB2312,存一个中文字符占用两个字节。
台湾的编码表:BIG5,统一繁体字编码。
支持中文编码的编码表发展史:GB2312–>GBK1.0–>GB18030–>unicode–>UTF-8
(每个编码表编码都不同)

Unicode(统一码、万国码、单一码),支持所有国家和地区的编码是计算机科学领域里的一项业界标准,包括字符集、编码方案等
平面拥有2^16=65536个码位
规定存一个字符,统一占用2个字节

UTF-8是unicode 的扩展集,对其进行了压缩和优化,是可变长的字符编码集,也是现在应用最广泛的语言。
英语字母,UTF-8编码和ASCII码是相同的。
ASCII码中的内容用1个字节保存,欧洲的字符用2个字节保存,东亚的字符用3个字节保存
支持英文编码的编码表发展史:ASCII–>unicode–>UTF-8
(每个编码表编码都不同)

字符–本质上是一种符号,人类所有的文字,数字,标点……都是符号。
字符串–多个字符组成的符号串。
字节—计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空间。

Windows-CMD的编码是:GBK
Notepad++的编码是:UTF-8
python2.X的默认编码是:ASCII
python3.X的默认编码是:Unicode

Unicode是一种字符集, 而

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值