摘 要
在高速发展的互联网时代中,人们每时每刻都在接收信息的状态下,所以对环境中的信息获得和回应的能力十分必要。其中文本信息占了其中的绝大多数。如果信息处理系统能够尽量像人眼一样对周围环境进行解析,特别是环境中的文本信息,那么信息获取流程将会更加简便快捷。本文主要以答题卡识别为例,利用Matlab软件实现对答题卡图片中答案和个人信息的识别,分数的计算和输出。应用Matlab可以很方便的从数字图像中获得相关数据,还可以进行各种检测,如预处理检测、hough直线检测、图像平滑、形态学滤波、区域分割与标记等一系列操作,编写相应的算法并设计出完整的GUI界面。用Matlab软件进行仿真和测试,输出的分数与真实得分相对比准确率达100%,这也充分确保了阅卷的公平公正,减少了人工阅卷的负担。
一、答题卡识别系统的发展
自动阅卷系统基于计算机技术,并且还能通过其他相关学科的知识来实现。有关数字图像处理,是所以工作中最重要的部分,也是目前众多教育领域中投入关注最多的部分。上个世纪六十年代中期,美国杜克大学的研发团队经过努力开发出第一个PEG(Project Essay Grade)系统。该系统主要根据文章的内在特征分析句子的含义,量化文章的特征,并使用人工评估对结果进行评分。紧跟这项工作后,还有一些成果相继出现,比如有LSA(Latent Semantic Analysis)系统。这类系统能够将观察对象,如文章等,看成是某一空间向量结构,那么每种向量的行即为文档特征,从而能够构成一类矩阵结构。以使用余弦方法计算文本向量与要检查的文本向量之间的相似度,最后给出分数。在上个世纪七十年代中期,欧美等国开始着力开发光标阅读机器。之后就出现了Remark Office软件,并很快被市场所推广。上个世纪80年代末,中国开始研究自动阅卷系统,并将其应用于1988年的高考阅卷[3]。考试系统由山东大学和重庆大学首先开发。此后,国家教育部考试中心将这项技术列为教育发展中的重要项目。光标读取机通过光电装置将不同区域的感光能力转换为计算机处理的电信号,并基于电信号进行识别。这样的识别系统虽然有高效、高精度、低功耗的优点,但缺点也很突出。也就是说,必须采用光标计分机和专用的答题卡,购买成本和使用成本非常高,如果决定了这种形式的答题卡的规格,修改很难,适用范围很小。图像处理技术通过用计算机分析并识别由图像收集装置获得的图像,来取得闪存卡的有效信息。这种认识方式不仅完