
字符集
文章平均质量分 52
ruowu
这个作者很懒,什么都没留下…
展开
-
编码字符集与字符集编码的区别
无论历史上的UCS还是现如今的Unicode,两者指的都是编码字符集,而不是字符集编码。 一个抽象字符集其实就是指字符的集合,例如所有的英文字母是一个抽象字符集,所有的汉字是一个抽象字符集,在给一个抽象字符集合中的每个字符都分配一个 整数编号之后(注意这个整数并没有要求大小),这个字符集就有了顺序,就成为了编码字符集。同时,通过这个编号,可以唯一确定到底指的是哪一个字符。当 然,对于同...原创 2010-08-10 16:28:54 · 94 阅读 · 0 评论 -
关于转义字符
转义字符所有的ASCII码都可以用“\”加数字(一般是8进制数字)来表示。而C中定义了一些字母前加"\"来表示常见的那些不能显示的ASCII字符,如\0,\t,\n等,就称为转义字符,因为后面的字符,都不是它本来的ASCII字符意思了。 java的转义字符:最常用的字符实体 说明 实体编号 半方大的空白  ...原创 2010-08-12 16:23:39 · 133 阅读 · 0 评论 -
UTF8与Unicode的转换
如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节,而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符。 UTF-8转换表表示如下: UNICODEUTF-800000000 - 0000007F0xxxxxxx...原创 2010-08-12 11:57:34 · 360 阅读 · 0 评论 -
Unicode和DBCS之间的区别
明白Unicode和DBCS之间的区别很重要。Unicode使用(特别在C程式设计语言环境里)「宽字元集」。「Unicode中的每个字元都是16位元宽而不是8位元宽。」在Unicode中,没有单单使用8位元数值的意义存在。相比之下,在双位元组字元集中我们仍然处理8位元数值。有些位元组自身定义字元,而某些位元组则显示需要和另一个位元组共同定义一个字元。...原创 2010-08-12 11:30:10 · 514 阅读 · 0 评论 -
字符串基础 ASCII MBCS UNICODE DBCS[转]
转自:http://hi.baidu.com/atgc123/blog/item/0e394e1fe3e7c1fe19d57667.html 所有的字符串类都起源于C语言的字符串,而C语言字符串则是字符的数组。首先了解一下字符类型。有三种编码方式和三种字符类型。 第一种编码方式是单字节字符集,称之为SBCS,它的所有字符都只有一个字节的长度。ASCII码就是SBCS。SBCS字符串由一个...原创 2010-08-12 11:28:02 · 176 阅读 · 0 评论 -
字形码
为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的点阵代码(字形码)。 用于显示的字库叫显示字库。显示一个汉字一般采用16×16点阵或24×24点阵或48×48点阵。已知汉字点阵的大小,可以计算出存储一个汉字所需占用的字节空间。 例:用16×16点阵表示一个汉字,就是将每个汉字用16行,每行16个点表示,一个点需要1位二进制代码,16个点需用16位二进制...原创 2010-08-12 10:54:28 · 2723 阅读 · 0 评论 -
汉字信息的编码知识
1、区位码:GB2312-80字符集,组成一个94*94的矩阵。每一行称为一个“区”,每一列称为一个“位”。一个汉字的区号和位号合在一起构成“区位码”, 区位码的编码范围是:0101~9494。2、国标码:国标码=(区位码的十六进制表示)+2020H,国标码的取值范围:2121H~7E7EH。3、机内码:中文或西文信息在计算机系统中的代码表示称为机内码。ASCII码是一种西文机内码,用一个字节表示...原创 2010-08-12 10:39:40 · 1645 阅读 · 0 评论 -
汉字字符集的概念
1、国标GB2312-80《信息交换用汉字编码字符集》:该字符集收录了6763个常用汉字,其中一级汉字3755个,二级汉字3008个。另外还收录了各种符号682个,合计7445个。2、国标GB13000.1-1993(等同于国际标准 ISO/IEC 10646.1-1993)《 通用多八位编码字符集(UCS) 第一部分:体系结构与基本多文种平面》:又称大字符集字库GBK,是《GB2312-80》、...原创 2010-08-12 10:35:56 · 274 阅读 · 0 评论 -
汉字处理过程
汉字系统对每个汉字预先规定输入计算机中的代码,即汉字的外部码(例如拼音输入码)。计算机为了识别汉字,要把汉字的外部码转换成内部码(二进制代码)进行存储和处理。输出时,还将汉字的内部码转换成汉字的字形码。计算机处理汉字的总过程如下:键盘管理程序 汉字处理程序 外部(输入)码 → 机内码 → 字形(输出)码(键盘) (计算机存储、传输) (计算机输出汉字)↑ ↓↑ ↓汉字信息 交换码(国标码) 汉字信...原创 2010-08-12 10:35:23 · 7912 阅读 · 0 评论 -
区位码
1980年,为了使每一个汉字有一个全国统一的代码,我国颁布了第一个汉字编码 的国家标准: GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。 国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区...原创 2010-08-12 10:03:21 · 824 阅读 · 0 评论 -
big endian和little endian
big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。还是将49写在前面,就是little endian。 ...原创 2010-08-11 17:41:58 · 102 阅读 · 0 评论 -
当一个软件打开一个文本时
当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件一般采用三种方式来决定文本的字符集和编码: 检测文件头标识,提示用户选择,根据一定的规则猜测 最标准的途径是检测文本最开头的几个字节,开头字节 Charset/encoding,如下表: EF BB BF : UTF-8 FF FE : UTF-16/UCS-2, li...原创 2010-08-11 17:40:35 · 128 阅读 · 0 评论 -
分析记事本写联通两字出现乱码的原因
现象:当你在 windows 的记事本里新建一个文件,输入"联通"两个字之后,保存,关闭,然后再次打开,你会发现这两个字已经消失了,代之的是几个乱码! 分析:这时我们看看utf8的编码格式: UCS-2编码(16进制) UTF-8 字节流(二进制) 0000 - 007F 0xxxxxxx 0080 - 07FF 110xxxxx 10xxxxxx ...原创 2010-08-11 17:39:53 · 2905 阅读 · 0 评论 -
各种编码的由来
转自:http://www.iteye.com/topic/351135 做排版修改了。 ANSI :八位的字节一共可以组合出256(2的8次方)种不同的状态。 编号从0开始的32种状态分别规定了特殊的用途,一但终端、打印机遇上约定好的这些字节被传过来时,就要做一些约定的动作。遇上00x10, 终端就换行,遇上0x07, 终端就向人们嘟嘟叫,例好遇上0x1b, 打印机就打印反白的字,...原创 2010-08-11 12:43:58 · 160 阅读 · 0 评论 -
汉字的字节长度
转自: http://longtangwan.iteye.com/blog/619700 依据编码形式: GB-231280 编码为 2个字节(Byte) 包含了 20902 个汉字,其编码范围是 0x8140-0xfefe。 GB18030-2000(GBK2K) 在 GBK 的基础上进一步扩展了汉字,增加了藏、蒙等少数民族的字形。编码是变长的,其二字节部分与 GBK 兼容;四字节部分是...原创 2010-08-10 22:17:41 · 603 阅读 · 0 评论 -
java编码分析
代码如下: String str = "中文"; byte[] utf8b = str.getBytes("UTF-8"); byte[] gbkb = str.getBytes("GBK"); // 没有乱码 System.out.println(new String(utf8b, "UTF-8"));...原创 2010-08-10 21:52:00 · 139 阅读 · 0 评论 -
Locale 详解[转]
转自:http://hi.baidu.com/fantacy129/blog/item/c99f9b0e371566ed37d122c0.htmlLocale 详解locale 是国际化与本土化过程中的一个非常重要的概念,个人认为,对于中文用户来说,通常会涉及到的国际化或者本土化,大致包含三个方面:看中文,写中文,与 window中文系统的兼容和通信。从实际经验上看来,loca...原创 2010-06-02 15:57:24 · 355 阅读 · 0 评论