Introduction 简介
What is Machine Learning(什么是机器学习)
学习 - 一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
西洋棋例子中,经验E就是程序上万次的自我练习的经验;任务T就是下棋;性能度量值P就是它与一些新对手比赛时,赢得比赛的概率。
Supervised Learning(监督学习)
回归问题
举例:现有数据集是一些房价信息,x为房屋面积,y为房价,那么现在有一套新房子,面积为a,预测它的房价是多少?这就是监督学习的例子。
监督学习:意指给出一个算法, 需要部分数据集已经有正确答案。比如给定房价数据集, 对于里面每个数据,算法都知道对应的正确房价, 即这房子实际卖出的价格。算法的结果就是 算出更多的正确价格,比如那个面积为a的新房子。
用更术语的方式来定义, 监督学习又叫回归问题,(应该是回归属于监督中的一种) 意指要预测一个连续值的输出,比如房价。 虽然从技术上,一般把房价记到美分单位。 所以实际还是个离散值,但通常把它看作实际数字, 是一个标量值,一个连续值的数,而术语回归, 意味着要预测这类连续值属性的种类。
分类问题
举例:使用一个特征属性,即肿瘤块大小, 来预测肿瘤是恶性良性,一般的学习算法中,特征值不止一个,比如患者年龄,肿瘤的厚度等,预测值也可能存在多个,比如无癌,A癌,B癌,C癌等
回归问题: 即通过回归来预测一个连续值输出。 分类问题: 目标是预测离散值输出。
监督学习: 其基本思想是,监督学习中,对于数据集中的每个数据, 都有相应的正确答案,(训练集) 算法就是基于这些来做出预测。(就我理解,就是需要先输入正确的数据进行练习(模型拟合),然后输入新的数据进行预测。)
Unsupervised Learning(无监督学习)
回想起监督学习中的数据集 每个样本 都已经被标明为 正样本或者负样本 即良性或恶性肿瘤 因此 对于监督学习中的每一个样本 我们已经被清楚地告知了 什么是所谓的正确答案(数据已经被标记) 即它们是良性还是恶性
在无监督学习中 没有属性或标签</