VS2013调用armadillo使用KNN算法实现0-9数字分类

本文介绍如何使用C++及线性代数库Armadillo实现基于k近邻算法(k-Nearest Neighbors, KNN)的手写数字识别。通过读取训练样本并进行分类,最终测试算法的有效性。

Perter Harrington的《机器学习实战》(Machine Learning In Action)的例子是使用python编写的,当我们使用Visual studio平台或其他C++平台时,调用C++编写的机器学习算法 可能更加方便。armadillo是一个很方便的基于C++的线性代数库,其命令格式类似于matlab。这里是VS2013下编写的《机器学习实战》第2章中 基于knn的手写数字识别 的代码,以及运行结果。

代码

#include "stdafx.h"
#include <iostream>
#include <fstream>
#include <io.h>
#include <string>
#include "armadillo"
using namespace arma;
using namespace std;

//图像矩阵转换为向量
vec img2vector(string filename)
{
    vec  returnVec = zeros(1024);
    FILE *pFile;
    errno_t err;
    if ((err = fopen_s(&pFile, filename.c_str(), "r")) != 0)
    {
        cout << "文件" << filename << "打开失败" << endl;
        return EXIT_SUCCESS;
    }
    char c;
    int n = 0;
    while (EOF != fscanf_s(pFile,"%c",&c,sizeof(char)))//一次读入一个字符
    {
        int num = c - '0';
        if ((num == 0)||(num == 1))
        {
            returnVec(n) = num;
            n++;
        }
    }
    fclose(pFile);
    return returnVec;
}

//KNN分类器
int classifier(vec inX, mat dataSet, vec labels, int k)
{
    int trainNum = labels.size();
    mat differMat = repmat(inX, 1, trainNum) - dataSet;
    mat sqDifferMat = square(differMat);
    rowvec sqDistances = arma::sqrt(sum(sqDifferMat, 0));
    uvec sortedDistanceIndicis = sort_index(sqDistances);//距离小到大排,ascend,升序(默认),descend降序
    uvec classCount = zeros<uvec>(10);//用于记录每一类数据的个数
    for (size_t i = 0; i < k; i++)
    {
        int valuLabel = labels(sortedDistanceIndicis(i));//获取对应标签值
        classCount(valuLabel) += 1;//对应类别个数加1
    }
    int resultLabel = classCount.index_max();
    return resultLabel;
}


int _tmain(int argc, _TCHAR* argv[])
{
    mat trainingMat = zeros(1024, 2500);//训练矩阵,每列为一个样本
    vec trainingLabels = zeros(2500); //训练标签
    int trainNum = 0; //记录训练样本个数
    int testNum = 0; //记录测试样本个数

//#############读取训练矩阵##################################
    intptr_t Handle;
    struct _finddata_t FileInfo;
    int k;
    Handle = _findfirst("digits\\trainingDigits\\*.txt", &FileInfo);
    k = Handle;
    if (k == -1)
    {
        cout << "没有找到匹配项目" << endl;
    }
    else
    {
        while (k != -1)
        {
            string filename = FileInfo.name;
            filename = "digits\\trainingDigits\\" + filename;
            trainingMat.col(trainNum) = img2vector(filename);
            int labelnum = FileInfo.name[0] - '0';//将char转换为数字
            trainingLabels(trainNum) = labelnum;//标签
            trainNum++;
            k =_findnext(Handle, &FileInfo);
        }
        cout << "训练样本一共有:" << trainNum << "个" << endl;
    }
    _findclose(Handle);
    trainingMat = trainingMat(span(0, 1023), span(0, trainNum-1));
    trainingLabels = trainingLabels(span(0, trainNum-1));
    cout <<"样本标签个数:"<< trainingLabels.size() << endl;
//#################################################################

//###########################读取测试样本,并分类#########################、
    Handle = _findfirst("digits\\testDigits\\*.txt", &FileInfo);
    k = Handle;
    if (k == -1)
    {
        cout << "没有找到匹配项目" << endl;
    }
    else
    {
        int errorCount = 0;//分类错误记录
        while (k != -1)
        {
            string filename = FileInfo.name;
            filename = "digits\\testDigits\\" + filename;
            vec inX = img2vector(filename);
            int resultclass = classifier(inX, trainingMat, trainingLabels, 4);//调用分类器
            int labelnum = FileInfo.name[0] - '0';//将char转换为数字,获得标签
            cout << "分类结果:" << resultclass << " 真实值:" << labelnum << endl;
            if (resultclass != labelnum)
            {
                errorCount = errorCount + 1;
            }
            testNum++;
            k = _findnext(Handle, &FileInfo);
        }
        cout << "测试样本一共有:" << testNum  << "个" << endl;
        cout << "分类错误率:" << float(errorCount*1.0 / testNum) << endl;    
    }
    _findclose(Handle);
//################################################################
    system("pause");
    return 0;
}

训练样本以及测试样本存储格式

这是一个标签为0的样本
这是一个标签为0的版本在txt里的存储格式。
《机器学习实战》的python源码和样本集可以在这里下载:
http://pan.baidu.com/s/1bp9MlND


训练效果

这里写图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值