机器学习的定义:
1、在没有明确设置的情况下,使计算机具有学习能力——Samuel
2、 计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高——Tom Mitchell
学习下棋是E,下赢是T,获胜的概率是P。通过在下棋(T)中提高经验(E)从而增加获胜的概率(P)。
机器学习主要分为:监督学习和无监督学习
监督学习是指 我们给算法一个数据集,其中包含了正确答案。也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格即这个房子实际卖价,算法的目的就是给出更多的正确答案,例如为你朋友想要卖掉的这所新房子给出估价。
回归问题:结果是线性的(我们设法预测出一个连续值的结果)
由size确定price
分类问题:结果是离散的(我们设法预测出一个离散值的结果)
良性的还是恶性的
无监督学习:(新闻故事、细分市场)
相对于监督学习(给定输入,输出,作为参考),无监督学习不知道输入/输出是什么,只能将数据进行聚类。
不给出横坐标和纵坐标的含义只是给出数据将它们分为两簇(聚类)
聚类和分类的区别:
分类:已知数据的类型,即在没有输入的时候,就知道输出的结果(如:肿瘤良性还是恶性)。
聚类:不知道数据的类型,只给数据一些特征,机器根据特征,将数据分开。