分类与符号识别技术解析
1. 分类相关数据
在分类任务中,有一系列与鸢尾花数据相关的文件,这些文件可用于训练和测试分类模型。具体信息如下:
| 文件名称 | 文件用途 |
| ---- | ---- |
| iris - train3.txt | 训练数据,对应鸢尾花品种为维吉尼亚鸢尾(Iris virginica) |
| iris - test1.txt | 测试数据,对应鸢尾花品种为山鸢尾(Iris setosa) |
| iris - test2.txt | 测试数据,对应鸢尾花品种为变色鸢尾(Iris versicolor) |
| iris - test3.txt | 测试数据,对应鸢尾花品种为山鸢尾(Iris setosa) |
| iris - data.txt | 完整的鸢尾花数据集 |
2. 符号识别问题提出
阅读是日常生活中非常基础的一部分,但我们很少思考它是如何实现的。对于计算机而言,识别页面上的字符是一个具有挑战性的任务,这就是光学字符识别(OCR)问题,即自动将光栅图像识别为字母、数字或其他符号。这个问题具有重要的实际意义,因为大量信息以印刷形式存储,如图书馆的书籍、广告牌、车牌、菜单、地图等都包含字符信息。同时,传真机传输的数据也是以图像形式存在,大多数计算机接收传真后只能存储为二进制图像,无法直接转换为 ASCII 文本文件。
一个 OCR 系统需要完成多个精确的任务。假设输入是一页文本图像,系统首先要确认文本的方向,然后对图像进行分割,先分为黑白像素,再分为文本行,最后分为单个字形(glyph)。接着对每个字形应用识别策略,将识别出的字符组合成单词和句子
超级会员免费看
订阅专栏 解锁全文
1714

被折叠的 条评论
为什么被折叠?



