关注哈希大数据微信公众号《哈希大数据》
昨天我们讲了机器学习的“入坑指南”,今天我们给大家介绍机器学习专家Deniz Yuret用10张漂亮的图来解释机器学习的重要概念,哈希在这里给大家普及一下,同时加一些自己的见解!本次看图学机器学习分为上下篇,下篇将在明天推出。
1.Test and training error(测试集误差和训练集误差)



为什么贝叶斯推理可以具体化奥卡姆剃刀原理。下面这张图直观解释了为什么使用复杂模型原来是小概率事件这个问题。水平轴代表了可能的数据集D空间。贝叶斯定理以他们预测的数据出现的程度成比例地反馈模型。这些预测是通过在数据集D上归一化概率分布来量化的。
数据的概率给出了一种模型Hi,P(D|Hi)被称作支持Hi模型的证据。一个简单的模型H1仅可以做到一种有限预测,以P(D|H1)展示;一个更加强大的模型H2,可以比模型H1拥有更加自由的参数,可以预测更多种类的数据集。但无论如何,H2在C1域中对数据集的预测做不到像H1那样强大。假设两个模型已经分配了相同的先验概率,如果数据集落在C1区域,不那么强大的模型H1将会是更加合适的模型。


为什么无关紧要的特征会损害KNN,聚类,以及其它基于相似度度量的方法。下图中左边这幅图展示了在低纬度情况下一条水平线将两类数据很好地被分离开来。而右图加入了一个新的维度——一条横轴,它破坏了分组,在该情况下不属于同一类别的反而会被分为一组,例如左边一组、右边一组。
