
机器学习
文章平均质量分 67
Shwan_Ma
模式识别小硕,向大牛看齐!
展开
-
【机器学习】MNIST数据集上的python读取和使用操作
MNIST手写字符数据集由LeCun大神提出。该数据集在机器学习中就相当于程序中的“Hello World”的存在。由于这个数据集可以很好测试我们的一些分类算法,本博客将对该数据集的读取操作等进行解释MNIST官网: http://yann.lecun.com/exdb/mnist/MNIST数据集主要由下面四个ubyte文件组成: 其中train_images_idx3_ubyte.gz和t原创 2017-08-26 16:45:35 · 11648 阅读 · 2 评论 -
【机器学习】基于MNIST数据集的KNN,SVM分类器测试
上篇blog讲了MNIST的读取方法 本文主要利用MNIST数据集进行对分类器进行测试KNN 近邻分类器KNN是一种懒惰学习(Lazy learning)方法,其所谓训练过程就是将训练数据存入空间中。然后在测试时,将待测试数据投入到数据空间中寻找近邻,通过近邻类别的投票来确定该数据的类别from sklearn.neighbors import KNeighborsClassifierimpor原创 2017-08-26 19:12:12 · 7722 阅读 · 1 评论 -
【机器学习】回归过程中的数据标准化
最近一直很困惑,因为有些资料在进行回归的时候,往往需要数据标准化。然而也有些资料说对于线性回归是不需要标准化。在查询了大量的资料后,准备在这篇博客上做一个总结。为什么要数据标准化数据标准化的原理往往是来自于独立连续变量的量纲。举一个例子,如果我们要对人口进行回归,采取“个数”的量纲和“百万个”的量纲得到的回归系数会差的相当大。而进行处理时,采取“个数”的量纲的回归系数太小。这时候便有必要需...原创 2018-05-01 14:12:13 · 56506 阅读 · 23 评论 -
【机器学习】Kmeans的C++实现及空簇的产生原因
Kmeans在无监督学习中,由于其非常容易实现,所以常常被用来聚类。但是他的缺点也需要注意: 1)Kmeans由于只适用于球形数据,这个原因来自于他的欧式距离来衡量相似度。如果数据分布不是球形的,则最后聚类结果往往不会太理想。 2)Kmeans 非常容易收敛到局部最小值,而且在大规模数据集上收敛较慢。 3)Kmeans极其容易产生空簇。下面举一个Kmeans 空簇产生的一个例子 1. ...原创 2018-04-26 17:02:57 · 4781 阅读 · 0 评论 -
【机器学习】一文理清信息熵,相对熵,交叉熵
初学者在搞清楚这个三个信息论的大怪兽时,往往会晕头转向。本文将简要的对这三个概念进行理清,文章尽量通俗,有不对的地方恳请斧正。信息熵:香农提出信息熵主要是用来解决对信息的量化度量问题,比如说存在选项【A,B,C,D】,若每个字母都用8位Ascii码存储,则表示这个四个选项需要32位bit。 如果此时采用二进制的话,4个选项用2位bit便可表示【00,01,10,11】。于是对4个选项信息进行量...原创 2019-03-25 16:29:53 · 963 阅读 · 1 评论