kNN分类器的甲骨文识别尝试

使用kNN分类器尝试识别甲骨文字符,通过296个样本的训练和测试,初始正确率仅为29.33%。分析发现,样本数量少、图片质量差及方向变化等因素影响了识别精度。通过扩充训练集样本角度,试图提高识别率,但结果并未显著改善。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

    使用kNN分类器识别了给定的手写字数据集合,大概给定的数据集比较理想化或者手写字本身干扰不大,使得手写数字的正确率可以高达95.92%(虽然有些地方手写数字正确率可以高达100%,但是毕竟模型不同,样本也不同,这是在我第一次学过kNN分类器并优化数据样本集后达到的最高正确率)。

     于是则萌生想要将模型应用到具体识别事件中,最终选择了比较类似手写字的甲骨文文字识别,一共296张样本,训练集为221,测试集为75,正确判断22,正确率为29.33%(k取值为3,如若更大则正确率更低)。效果不甚理想,正确率连50%都达不到,分析有以下原因:

            1>    训练集、测试集数据太少,导致特征提取样本不够,进而使得特征判断精准度下降

            2>     训练集及测试集图片污点、残缺、干扰太大,影响特征提取判断

            3>      训练集方向单一,测试集文字若方向不同则导致特征判断失败

            根据原因进行优化,前两条由于数据的限制无法找到有效解决方案,则对最后一条进行了解决,对每一张训练集样本顺时针分别旋转90, 180, 270度使得训练样本集扩充至1184张,间接解决了一部分第一条原因,然而最终结果仍是29.33%。遂认为图片的噪声影响对kNN分类器的特征提取即分类判断具有极大影响,在实际现实世界中,kNN分类器的限制极大,但对于具有高质量高特征的图片样本来说,kNN的简单及高泛化能力还是使得其具有很大价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值