点阵汉字的字模读取与显示

最新推荐文章于 2024-05-13 12:03:41 发布

原创最新推荐文章于 2024-05-13 12:03:41 发布 · 797 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#ubuntu #嵌入式硬件

文章详细介绍了在Ubuntu系统中安装OpenCV，以及汉字的机内码、区位码、国标码和ASCII码编码规则，以及如何在图片上使用OpenCV库显示汉字和ASCII字符。还提到点阵字库的存储和获取方法，以及显示文本时的注意事项。

一、ubuntu安装openCV

参考【精选】Ubuntu18.04下Opencv的安装及使用实例_ubuntu 安装opencv_初见snow的博客-优快云博客

二、汉字的机内码、区位码编码规则和字形数据存储格式

（一）国标码(交换码)

1.简介

国标码国标码是一个四位十六进制数，它将一个汉字用两个字节表示，每个字节只有7位，与ASCII码相似。

为了避开ASCII字符中的不可显示字符0000 0000 ~ 0001 1111(十六进制为0 ~ 1F，十进制为0 ~ 31)及空格字符0010 0000(十六进制为20，十进制为32)（至于为什么要避开、又为什么只避开ASCII中0~32的不可显示字符和空格字符，后文有解释），国标码(又称为交换码)规定表示汉字的范围为(0010 0001，0010 0001) ~ (0111 1110，0111 1110)，十六进制为(21，21) ~ (7E，7E)，十进制为(33，33) ~ (126，126)（注意，GB类汉字编码为双字节编码）。

因此，必须将“区码”和“位码”分别加上32(十六进制为20H，后缀H表示十六进制)，作为国标码。也就是说，国标码相当于将区位码向后偏移了32，以避免与ASCII字符中0~32的不可显示字符和空格字符相冲突。

2.举例

注意，标码中是分别将区位码中的“区”和“位”各自加上32(20H)的，因为GB2312是DBCS双字节字符集，国标码属于双字节码，“区”和“位”各作为一个单独的字节。

“万”字的国标码十进制为：(45+32，82+32) = (77，114)，十六进制为：(4D，72H)，二进制为：(0100 1101，0111 0010)。

（二）汉字机内码

1.汉字机内码简介

机内码：为了避免ASCII码和国标码同时使用时产生二义性问题，大部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性，又使汉字机内码与国标码具有极简单的对应关系。

名称	内容
中文名	汉字机内码
别称	汉字ASCII码
简称	内码
公式	汉字机内码=汉字国标码+8080H
特点	在计算机内部其内码是唯一的

2.例子

国标码的机内码为二字节长的代码，它是在相应国标码的每个字节最高位上加“1”，即

汉字机内码=汉字国标码+8080H

例如，上述“啊”字的国标码是3021H，其汉字机内码则是B0A1H。

（三）汉字区位码

1.简介

区位码一个四位的十进制数，它将GB2312—80的全部字符集组成一个94×94的方阵，每一行称为一个“区”，编号为01～94；每一列称为一个“位”，编号为01～94，这样得到GB2312—80的区位图，用区位图的位置来表示的汉字编码，称为区位码。

名称	内容
中文名	汉字区位码
类别	办法
作用	为每个汉字编一个唯一的代码
优势	便计算机辨认、接收和处理

2.GB2312字符集中区位码位置

（1）01~09区(682个)：特殊符号、数字、英文字符、制表符等，包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母等在内的682个全角字符；

（2）10~15区：空区，留待扩展；

（3）16~55区(3755个)：常用汉字(也称一级汉字)，按拼音排序；

（4）56~87区(3008个)：非常用汉字(也称二级汉字)，按部首/笔画排序；

（5）88~94区：空区，留待扩展。

（四）汉字机内码、国标码和区位码三者关系

1.三者的关系

国标码 = 区位码 + 2020H；机内码 = 国标码 + 8080H；

2020H解释

因为ASCLL码中分为控制型编码和有形字符编码，前32位是控制码（如回车，退格等），沿用前32个，覆盖后面的。故国标码规定在区位码的基础上每个字节分别加上20H（32的十六进制表示）。 8080H解释

为避免与ASCLL编码冲突，从而规定把每个字节的最高位都从 0 换成 1(这之前它们都是 0)，或者说把每个字节(区和位)都再加上 80H(128的十六进制表示)。

2. 运算规则

（1）将区位码中的区码和位码分别转换为十六进制数；（2）区位码的十六进制数+2020H = 国标码；（3）国标码+8080H = 机内码

从区位码(国家标准定义) —> 区码和位码分别+32(即+20H)得到国标码 —> 再分+128(即+80H)得到机内码(与ACSII码不再冲突) 区位码(区码,位码) + (20H,20H) + (80H,80H) =区位码(区码,位码) + (A0H,A0H) = 内码(高字节,低字节)。

（五）汉字字形储存格式

1. 点阵字库存储

在汉字的点阵字库中，每个字节的每个位都代表一个汉字的一个点，每个汉字都是由一个矩形的点阵组成，0代表没有，1代表有点，将0和1分别用不同颜色画出，就形成了一个汉字，常用的点阵矩阵有1212, 1414, 16*16三种字库。

字库根据字节所表示点的不同有分为横向矩阵和纵向矩阵，目前多数的字库都是横向矩阵的存储方式(用得最多的应该是早期UCDOS字库)，纵向矩阵一般是因为有某些液晶是采用纵向扫描显示法，为了提高显示速度，于是便把字库矩阵做成纵向，省得在显示时还要做矩阵转换。我们接下去所描述的都是指横向矩阵字库。

2. 16*16点阵字库

对于1616的矩阵来说，它所需要的位数共是1616＝256个位，每个字节为8位，因此，每个汉字都需要用256/8=32个字节来表示。

即每两个字节代表一行的16个点，共需要16行，显示汉字时，只需一次性读取32个字节，并将每两个字节为一行打印出来，即可形成一个汉字。点阵结构如下图所示：

3. 1414与1212点阵字库

对于1414和1212的字库，理论上计算，它们所需要的点阵分别为(1414/8)=25, (1212/8)=18个字节，但是，如果按这种方式来存储，那么取点阵和显示时，由于它们每一行都不是8的整位数，因此，就会涉到点阵的计算处理问题，会增加程序的复杂度，降低程序的效率。

为了解决这个问题，有些点阵字库会将1414和1212的字库按1614和1612来存储，即，每行还是按两个字节来存储，但是1414的字库，每两个字节的最后两位是没有使用，1212的字节，每两字节的最后4位是没有使用，这个根据不同的字库会有不同的处理方式，所以在使用字库时要注意这个问题，特别是14*14的字库。

4.汉字点阵获取

(1）利用区位码获取汉字

汉字点阵字库是根据区位码的顺序进行存储的，因此，我们可以根据区位来获取一个字库的点阵，它的计算公式如下：

点阵起始位置 = ((区码- 1)*94 + (位码 – 1)) * 汉字点阵字节数

获取点阵起始位置后，我们就可以从这个位置开始，读取出一个汉字的点阵。

（2）利用汉字机内码获取汉字

前面我们己经讲过，汉字的区位码和机内码的关系如下：

机内码高位字节 = 区码 + 20H + 80H(或区码 + A0H) 机内码低位字节 = 位码 + 20H + 80H(或位码 + AOH)

反过来说，我们也可以根据机内码来获得区位码：

区码 = 机内码高位字节 - A0H 位码 = 机内码低位字节 - AOH

将这个公式与获取汉字点阵的公式进行合并计就可以得到汉字的点阵位置。

三、Ubuntu下调用opencv库编程显示图片和学号姓名

1.打开ubuntu新建文件夹用来存放代码、图片、24点阵.hz文件，ASCII码.zf文件

2.把图片、24点阵.hz文件，ASCII码.zf文件，要输出的文本文件.txt粘贴到该路径下

3.用命令新建c++源文件

#include<iostream>
#include<opencv/cv.h>
#include"opencv2/opencv.hpp"
#include<opencv/cxcore.h>
#include<opencv/highgui.h>
#include<math.h>

using namespace cv;
using namespace std;

void paint_chinese(Mat& image,int x_offset,int y_offset,unsigned long offset);
void paint_ascii(Mat& image,int x_offset,int y_offset,unsigned long offset);
void put_text_to_image(int x_offset,int y_offset,String image_path,char* logo_path);

int main(){
    String image_path="bird.jpg";//图片的名字
    char* logo_path="logo.txt";//汉字文件的名字
    put_text_to_image(200,350,image_path,logo_path);//change txt place
    return 0;
}

void paint_ascii(Mat& image,int x_offset,int y_offset,unsigned long offset){
    //绘制的起点坐标
	Point p;
	p.x = x_offset;
	p.y = y_offset;
	 //存放ascii字膜
	char buff[16];           
	//打开ascii字库文件
	FILE *ASCII;

	if ((ASCII = fopen("Asci0816.zf", "rb")) == NULL){
		printf("Can't open ascii.zf,Please check the path!");
		//getch();
		exit(0);
	}

	fseek(ASCII, offset, SEEK_SET);
	fread(buff, 16, 1, ASCII);

	int i, j;
	Point p1 = p;
	for (i = 0; i<16; i++)                  //十六个char
	{
		p.x = x_offset;
		for (j = 0; j < 8; j++)              //一个char八个bit
		{
			p1 = p;
			if (buff[i] & (0x80 >> j))    /*测试当前位是否为1*/
			{
				/*
					由于原本ascii字膜是8*16的，不够大，
					所以原本的一个像素点用4个像素点替换，
					替换后就有16*32个像素点
					ps：感觉这样写代码多余了，但目前暂时只想到了这种方法
				*/
				circle(image, p1, 0, Scalar(0, 0, 255), -1);
				p1.x++;
				circle(image, p1, 0, Scalar(0, 0, 255), -1);
				p1.y++;
				circle(image, p1, 0, Scalar(0, 0, 255), -1);
				p1.x--;
			   circle(image, p1, 0, Scalar(0, 0, 255), -1);
			}						
            p.x+=2;            //原来的一个像素点变为四个像素点，所以x和y都应该+2
		}
		p.y+=2;
	}
}
void paint_chinese(Mat& image,int x_offset,int y_offset,unsigned long offset){//在图片上画汉字
    Point p;
    p.x=x_offset;
    p.y=y_offset;
    FILE *HZK;
    char buff[72];//72个字节，用来存放汉字的

    if((HZK=fopen("HZKf2424.hz","rb"))==NULL){
        printf("Can't open HZKf2424.hz,Please check the path!");
        exit(0);//退出
    }
    fseek(HZK, offset, SEEK_SET);/*将文件指针移动到偏移量的位置*/
    fread(buff, 72, 1, HZK);/*从偏移量的位置读取72个字节，每个汉字占72个字节*/
    bool mat[24][24];//定义一个新的矩阵存放转置后的文字字膜
    int i,j,k;
    for (i = 0; i<24; i++)                 /*24x24点阵汉字，一共有24行*/
	{
        	for (j = 0; j<3; j++)                /*横向有3个字节，循环判断每个字节的*/
			for (k = 0; k<8; k++)              /*每个字节有8位，循环判断每位是否为1*/
				if (buff[i * 3 + j] & (0x80 >> k))    /*测试当前位是否为1*/
				{
					mat[j * 8 + k][i] = true;          /*为1的存入新的字膜中*/
				}
				else {
					mat[j * 8 + k][i] = false;
				}
	}
	
    for (i = 0; i < 24; i++)
	{
		p.x = x_offset;
		for (j = 0; j < 24; j++)
		{		
			if (mat[i][j])
				circle(image, p, 1, Scalar(255, 0, 0), -1);		  //写(替换)像素点
			p.x++;                                                //右移一个像素点
		}
		p.y++;                                                    //下移一个像素点
	}
}

void put_text_to_image(int x_offset,int y_offset,String image_path,char* logo_path){//将汉字弄上图片
//x和y就是第一个字在图片上的起始坐标
    //通过图片路径获取图片
    Mat image=imread(image_path);
    int length=19;//要打印的字符长度（打印多少字节长度就为多少，根据自己的情况调整）
    unsigned char qh,wh;//定义区号，位号
    unsigned long offset;//偏移量
    unsigned char hexcode[30];//用于存放记事本读取的十六进制,记得要用无符号
    FILE* file_logo;

    if ((file_logo = fopen(logo_path, "rb")) == NULL){
		printf("Can't open txtfile,Please check the path!");
		//getch();
		exit(0);
	}

    fseek(file_logo, 0, SEEK_SET);
    fread(hexcode, length, 1, file_logo);
    int x =x_offset,y = y_offset;//x,y:在图片上绘制文字的起始坐标

    for(int m=0;m<length;){
        if(hexcode[m]==0x23){
            break;//读到#号时结束
        }
        else if(hexcode[m]>0xaf){
            qh=hexcode[m]-0xaf;//使用的字库里是以汉字啊开头，而不是以汉字符号开头
            wh=hexcode[m+1] - 0xa0;//计算位码
            offset=(94*(qh-1)+(wh-1))*72L;
            paint_chinese(image,x,y,offset);
            /*
            计算在汉字库中的偏移量
            对于每个汉字，使用24*24的点阵来表示的
            一行有三个字节，一共24行，所以需要72个字节来表示
            */

            m=m+2;//一个汉字的机内码占两个字节，
            x+=24;//一个汉字为24*24个像素点，由于是水平放置，所以是向右移动24个像素点
        }

        else{
        //当读取的字符为ASCII码时
        wh=hexcode[m];
        offset=wh*16l;//计算英文字符的偏移量
        paint_ascii(image,x,y,offset);
        m++;//英文字符在文件里表示只占一个字节，所以往后移一位就行了
        x+=16;
        }

    }

    cv::imshow("image", image);
    cv::waitKey();
}