在C程序中显示汉字
在许多C程序设计中,要用到汉字进行提示或人机交互,而现行的Turbo C集成开发环境不是汉化的,如何编制能显示汉字的C程序呢?
下面的方法可以帮你在西文环境下显示汉字。这种方法是调用中文汉字库进行汉字显示。国家标准规定:汉字库分94个区,每个区有94个汉字(以位作区别),每个汉字在汉字库中有确定的区和位编号,这就是汉字的区位码。每个汉字在库中是以点阵字模形式存储的,一般采用16×16点阵(32字节)、24×24点阵(72字节),每个点用一个二进制位(0或1)表示,对应在屏幕上显示出来,就是相应的汉字。
由于在中文环境下,输入的是汉字的内码,我们必须将之转换成区位码,算出偏移量,从字库中找到对应的汉字,将其字模显示即可。
内码转换成区位码方法如下:
qh=c1-0xa0 wh=c2-0xa0
其区位码就是:
qw=qh*0xff+wh
该汉字在字库中离起点的位置是:
offset=(94*(qh-1)+(wh-1))*32L
程序例:
#include 〈graphics.h〉
#include 〈stdio.h〉
#include 〈fcntl.h〉
#include 〈io.h〉
#include 〈stdlib.h〉
#include 〈conio.h〉
#define ROW 1 //纵坐标放大倍数
#define COL 2 //横坐标放大倍数
void main()
{
int x,y;
char *s=″汉字显示程序″;
FILE *fp;
char buffer[32]; //buffer用来存储一个汉字
register m,n,i,j,k;
unsigned char qh,wh;
unsigned long offset;
int gd=DETECT,gm; //图形屏幕初始化
initgraph(&gd,&gm,″ ″);
if ((fp=fopen(″hzk16″,″rb″))==NULL)
//打开汉字库,该字库可以在ucdos中找到
{ printf(″Can't open haz16,Please add it″);
getch(); closegraph(); exit(0);
}
x=20; y=100; //显示位置设置
while(*s)
{ qh=*(s)-0xa0; //汉字区位码
wh=*(s+1)-0xa0;
offset=(94*(qh-1)+(wh-1))*32L; //计算该汉字在字库中偏移量
fseek(fp,offset,SEEK_SET);
fread(buffer,32,1,fp); //取出汉字32字节的点阵字模存入buffer中(一个汉字)
for (i=0;i〈16;i++) //将32位字节的点阵按位在屏幕上打印出来(1:打印,0:不打印),显示汉字
for(n=0;n〈ROW;n++)
for(j=0;j〈2;j++)
for(k=0;k〈8;k++)
for(m=0;m〈COL;m++)
if (((buffer[i*2+j]〉〉(7-k))&0x1)!=NULL)
putpixel(x+8*j*COL+k*COL+m,y+i*ROW+n,GREEN);
s+=2; //因为一个汉字内码占用两个字节,所以s必须加2
x+=30;
}
getch();
closegraph();
}
上述程序在Turbo C 2.0编译系统下运行成功,它可以将汉字放大显示,读者可以将它改成函数用在您的程序中显示汉字。
链接:http://tech.china.com/zh_cn/netschool/programme/c/3936/20000815/218359.htm
知识补充:
(转载于:http://dev.youkuaiyun.com/author/maxcode/b3c536dccbcd4e3e8cfb6afd6e950eb2.html)
汉字的编码和表示
1
)汉字交换码(国标码)
汉字交换码(国标码)主要用于汉字信息交换。
国标码:以国家标准局
1980
年颁布的《信息交换用汉字编码字符集
"
基本集》(代号为
GB2312 80
)规定的汉字交换码作为国家标准汉字编码。
GB2312 80
中共有
7445
个字符符号:
汉字符号
6763
个
一级汉字
3755
个(按汉语拼音字母顺序排列)
二级汉字
3008
个(按部首笔划顺序排列)
非汉字符号
682
个
GB2312 80
规定,所有的国标码汉字及符号组成一个
94 94
的方阵。在此方阵中,每一行称为一个
"
区
"
,每一列称为一个
"
位
"
。这个方阵实际上组成一个有
94
个区(编号由
01
到
94
),每个区有
94
个位(编号由
01
到
94
)的汉字字符集。
一个汉字所在的区号和位号的组合就构成了该汉字的
"
区位码
"
。其中,高两位为区号,低两位为位号。这样区位码可以唯一地确定某一汉字或字符;反之,任何一个汉字或符号都对应一个唯一的区位码,没有重码。
区位码分布情况如下:
区
号
内
容
1
区
键盘上没有的各种符号
2
区
各种序号
3
区
键盘上的各种符号(按中文方式给出)
4 -5
区
日文字母
6
区
希腊字母
7
区
俄文字母
8
区
标识拼音声调的母音及拼音字母名称
9
区
制表符号
10- 15
区
未用
16-55
区
一级汉字(按拼音字母顺序排列)
56- 87
区
二级汉字(按部首笔划顺序排列)
88- 94
区
自定义汉字
由上可以看出,所有汉字与符号的
94
个区,可以分为四个组:
①
1 -15
区:为图形符号区。其中
1 9
区为标准符号区;
10 15
区为自定义符号区。
②
16 -55
区:为一级汉字区,包含
3755
个汉字。这些区中的汉字按汉语拼音顺序排序,同音字按笔画顺序列出。
③
56 -87
区:为二级汉字区,包含
3008
个汉字。这些区中的汉字是按部首笔划顺序排序的。
④
88 -94
区:为自定义汉字区。
国标码规定,每个汉字(包括非汉字的一些符号)由
2
字节代码表示。每个字节的最高位为
0
,只使用低
7
位,而低
7
位的编码中又有
34
个适用于控制用的,这样每个字节只有
27 - 34 = 94
个编码用于汉字。
2
个字节就有
94 94=8836
个汉字编码。在表示一个汉字的
2
个字节中,高字节对应编码表中的行号,称为区号;低字节对应编码表中的列号,称为位号。
汉字国标码的范围用二进制表示是:
00100001 00100001 01111110 01111110 (1+32)10 (1+32)10 (94+32)10 (94+32)10 7
位
ASCII
码是
128
个字符组成的字符集。其中编码值
0 31
(
00000000 00011111
)不对应任何印刷字符,通常称为控制符,用于计算机通信中的通信控制或对计算机设备的功能控制。编码值
32
(
00100000
)是空格字符
SP
。编码值
127
(
1111111
)是删除字符
DEL
。
汉字国标码的起始二进制位置选择
00100001
即
(33)10
是为了跳过
ASCII
码的
32
个控制字符和空格字符。所以,汉字国标码的高位和低位分别比对应的区位码大
(32)10
或
(00100000)2
或
(20)H
,即:
国标码高位
=
区码
+ 20H
(
H
表示十六进制)
国标码低位
=
位码
+ 20H
2)
汉字机内码(内码)(汉字存储码)
汉字机内码(内码)(汉字存储码)的作用是统一了各种不同的汉字输入码在计算机内部的表示。
为了将汉字的各种输入码在计算机内部统一起来,就有了专用于计算机内部存储汉字使用的汉字机内码,用以将输入时使用的多种汉字输入码统一转换成汉字机内码进行存储,以方便机内的汉字处理
汉字机内码是在计算机内部存储、处理的代码。计算机既要处理汉字,又要处理英文。因此计算机必须能区别汉字字符和英文字符。英文字符的的机内码是最高为为
0
的
8
位
ASCII
码。为了不与
7
位
ASCII
码发生冲突,把国标码每个字节的最高位由
0
改为
1
,其余位不变的编码作为汉字字符的机内码。
汉字机内码的范围用二进制表示是:
10100001 10100001 11111110 11111110
机内码的高位和低位比对应的国标码的高位和低位大
(128)10
或
(10000000)2
或
(80)H
即:
机内码高位
=
国标码高位
+ 80H
机内码低位
=
国标码低位
+ 80H
又因为:
国标码高位
=
区码
+ 20H
国标码低位
=
位码
+ 20H
所以:
机内码高位
=
区码
+ A0H
机内码低位
=
位码
+ A0H
也就是说,机内码高位和机内码低位分别比对应的区码和位码大
(160)10
或
(10100000)2
或
(A0)H
例如:汉字
"
啊
"
的区位码为
"1601"
,其中区码为
(16)10
或
(10)H
,位码为
(01)10
或
(01)H
。
则:
机内码高位
= 10H + A0H = B0H
机内码低位
= 01H + A0H = A1H
所以:
机内码
= B0A1H
<!--[if !supportEmptyParas]--> <!--[endif]-->
3)
汉字输入码(外码)
汉字输入码(外码)是为了通过键盘字符把汉字输入计算机而设计的一种编码。
英文输入时,相输入什么字符便按什么键,输入码和机内码一致。汉字输入时,可能要按几个键才能输入一个汉字。
汉字输入方案有成百上千个,但是这千差万别的外码输入进计算机后都会转换成统一的内码。
汉字输入方案大致可分为以下
4
种类型:
(
1
)
音码:如全拼、双拼、微软拼音等
(
2
)
形码:如五笔字型、郑码、表形码等
(
3
)
音形码:如智能
ABC
、自然码等
(
4
)
数字码:如区位码、电报码等
4)
汉字字形码(输出码)
汉字字形码(输出码)用于汉字的显示和打印,是汉字字形的数字化信息。
汉字的内码是用数字代码来表示汉字,但是为了在输出时让人们看到汉字,就必须输出汉字的字形。在汉字系统中,一般采用点阵来表示字形。
16 *16
汉字点阵示意
16 * 16
点阵字形的字要使用
32
个字节(
16 * 16/8= 32
)存储,
24 * 24
点阵字形的字要使用
72
个字节(
24 * 24/8=72
)存储。
一般来说,表现汉字时使用的点阵越大,则汉字字形的质量也越好,当然每个汉字点阵所需的存储量也越大。
5)
汉字地址码
汉字地址码是指汉字库(这里主要指整字形的点阵式字模库)中存储汉字字形信息的逻辑地址。在汉字库中,字形信息都是按一定顺序(大多数按标准汉字交换码中汉字的排列顺序)连续存放在存储介质上的,所以汉字地址码也大多是连续有序的,而且与汉字内码间有着简单的对应关系,以简化汉字内码到汉字地址码的转换。