目 录
摘 要
随着现代教育考试的飞速发展,很多考试为了方便,减少阅卷的人工量都采用了答题卡来填涂答案。人们通过图像采集和计算机识别答题卡的方式计算出考生的成绩。
这次毕业设计主要研究的是利用 MATLAB 软件来实现对答题卡识别的系统。它采用光学的方法,通过扫描仪,获取答题卡的数字图像,然后通过 MATLAB 软件对图像数据进行分析和加工,其中主要包括了数字图像的预处理、图像内容的边缘检测、图像的平滑滤波、图像的直线检测、图像的修正、图像的分割和特征提取等内容。最后利用 MATLAB 中的工具箱,通过编程实现答题卡学号和答案的自动识别的系统。
通过MATLAB软件对扫描的答题卡图片进行识别并且计算分值,测试出的分值与真实的分值相对比,完全相同,测试结果说明这个识别系统是可行的。
【关键词】MATLAB、答题卡、图像处理技术、答案识别
Abstract
With the rapid development of modern education examination, a lot of people reduce the amount of artificial marking of sheet to full filling the answer for convenience,. People now calculate the examinee's score sheet through image acquisition and computer identification.
This graduation design mainly studies using MATLAB software to realize the recognition of sheet system, which adopts optical method, through the scanner, to get the digital image of sheet , and then through the MATLAB software to analyze and process image data, mainly including digital image preprocessing, edge detection, image smoothing, image content filtering, image of straight line detection, image correction, image segmentation and feature extraction, etc. Finally we use the MATLAB toolbox to implement sheet student id and automatic identification system of the answers , by programming .
Through the MATLAB software to scan the sheet images to recognize and
calculate , if the score of test are exactly the same by contrast with the true score, test results will show that this recognition system is feasible.
【Key words】 MATLAB;Sheet; Image Processing Technology;Identification of the Answers
在现代教育事业的飞速发展中,考试已经成为现代教育事业中最公平的方式方法,而且也是衡量教与学的唯一方法。通过考试成绩的好与坏,老师和家长可以分析出学生掌握的知识多少和学习情况。从而老师可以了解到自己教学中的不足来改进教学的方式方法,提高教学的水平。学生也可以通过考试了解到自身学习的不足,从而有针对性的进行学习。考试也是进行人才的选拔和评价的重要方法。不论是找工作应聘,还是单位内部的晋升都需要进行考试。
由于考试具有一定的特殊性,而且考试必须要公平公正,当然其中最重要的就是阅卷的准确性。考生做好了题,这时就需要改卷老师阅卷的准确性,这样才能更准确的给考生真实的分数。传统的阅卷方式为流水线的手工作业方式。这样的方式存在很多的问题,因为很容易受到阅卷者的主观因素的影响,从而产生一定的偏差。所以很多人就讨论如何将人为的因素降低到最低,来确保考生的考试成绩的公平公正和准确。
随着考试题型的多样化,特别是选择题在考试中所占据的比重越来越多,比如说像英语考试、公务员考试、企业的心理测试等,都是以选择题为主。由于选择题不具有主观性,所以为了阅卷的方便与准确,人们开始研究如何使用计算机来代替人工进行阅卷。最终出现了基于计算机的答题卡自动阅卷系统
随着计算机技术的飞速发展,阅卷系统也得到了成熟的发展。自动阅卷系统涉及多个学科领域,其中数字图像处理是这个学科中最关键最重要的一部分,它是国内外教育事业发展领域的研究热点之一。
国外是率先采用计算机技术自动阅卷系统,1966 年在美国的杜克大学,
Ellis Page 等团队经过努力研发了第一个自动评分的系统叫做 PEG(Project Essay Grade)[1],它主要是针对于文章的内在特征进行句子意思的分析,将文章的特征进行量化,采用人工评估得分的方式给出结果,从这些结果中找出一系列的特征进行训练,得出一个与之相关的分析性值,用这个值对待批阅的文章进行批阅。在此后还出现了 LSA(Latent Semantic Analysis)系统[2],这个系统最重要的功能就是将每一篇文章看作是一个在空间的向量,向量的每一行表示文档的特征,而每一列表示文档的向量,每一个文本都会产生一个矩阵。再用余弦的方法计算文本向量与将要批阅的文本向量的相似度,最后给出评价。1970 年,欧
美几个发达国家开始研制光标阅读机,在答题卡识别系统方面研究比较成熟的系统是 Remark Office 软件[2],填涂的区域是圆形,这些系统具有较好的经济价值,然而当这些系统投入市场后,得到了大多数使用者的青睐,然而在相关技术方面公布的资料都很少,限制了研究者以及开发者其研究和开发。
在 80 年代初期,我国才开始对自动阅卷系统进行研究。在 1988 年的高考的阅卷中进行了试点,取得了不错的成绩。这个阅卷系统就是山东大学和重庆大学首先研发的。此后 1990 年,国家教育部的考试中心把这项阅卷技术列为教育发展的重要项目,并大力鼓励各科研单位进行研究这个阅卷系统,1992 年已有多个科研单位研制的自动阅卷系统通过国家审核,并用于各种标准化考试中。由于随着计算机科学技术的高速发展和数字图像处理技术的成熟,近年来人们开始研究基于图像处理的答题卡阅卷系统,处理效果也相对比较好,已经有不少公司开发的阅卷系统投入了市场。
数字图像处理起源于 20 世纪 20 年代它的英文名称为“Digital Image
Processing”,当时人们利用电缆,把一副通过数字压缩技术的图片从英国的伦敦传输到了美国的纽约[3]。从那时之后数字图像处理技术经过了一个非常缓慢的发展时期。直到第三代计算机的问世数字图像处理才得到了飞速的发展。经过多年的发展,数字图像处理成为了一门重要工具。在许多的科学领域都发挥着不可替代的作用,如在统计学、生物学、医学等学科。
数字图像处理技术经过近 20 年的发展成为了一门独立的学科。总的来说,
数字图像处理主要研究的内容包括图像分割、图像增强、图像压缩、图像变换、图像复原等。它在工农业生产、航空航天、生物医学工程、交通、军事、媒体、气象、通信等方面有着很广泛的应用[4]。例如在医学方面,能够利用 X 射线图像、显微图像、放射性同位数图像、超声波图像等进行基础研究和临床诊断;在工业生产应用领域[5],可以运用数字图像处理技术装配生产线,进行工业材料和零件的检查等;总之,数字图像处理技术具有相当广泛的应用,它在办公自动化、地球资源探测、工业机器人以及日常生活中充当着越来越重要的角色,对国家的发展和人民的生活有着不可忽略的作用。
随着计算机科学技术的快速发展,计算机功能越来越多样化,应用软件也越来越丰富,而数字图像处理技术也将会迎来一次跨越式的发展,其应用的相关领域也将越来越广泛。
由于现在市场上的答题卡众多,而且不同公司的答题卡都要使用它们公司的阅卷系统。本文主要是研究利用 MATLAB 软件来实现用数字图像处理技术来识别标准答题卡。这个研究主要是针对如何识别答题卡以及如何编写软件系统设计。
课题的研究内容如下:
- 确定答题卡识别系统的整体方案,包括系统整体的框架以及硬件组成、软件开发方案,其中主要是软件方面的开发。
- 确定数字图像处理的算法,包括图像预处理、图像的倾斜级旋转校正、二
值变换等。通过分析和比较多种处理方法,结合图像本身的一些特点最后确定使用 Hough 变换来检测图像中的直线的倾角,并通过旋转图像使图像进行矫正。
- 研究了如何利用 MATLAB 软件对填涂答案区域的识别和对学号区域的识别,
准确有效的实现了对学号的提取和答案的提取,不论是多选还是单选。
- 利用 MATLAB 完成了系统的软件部分的编程设计,最主要的是实现了将答题卡中被填涂的答案提取出来,然后与标准的答案进行比对。通过相关的计算, 算出考生填涂正确的题数,并统计计算后的得分。
- 将统计的得分与实际的得分情况进行对比,并分析原因。