1.基本概念
1.数据集,特征属性,属性值,训练集,样本,标记,独立同分布的假设balabala….简单易懂
2.归纳学习与归纳偏好:
广义从样例学习,狭义是学习概念。西瓜模型的学习可以理解为从假设空间中搜索匹配,剔除不符合,最终会有多个模型,这个集合也可以叫做版本空间。然后我们必须根据规则选择一个,设计occam’s razor原理,选择最简单的。
3.NFL:
所有模型的期望性能相同。(假设各个机会相同)周志华举了例子,从A到C,南京到上海,自行车出现的可能性肯定与火车不同。
4.balalal一些模型的发展
2.模型评估与选择
1. 经验误差:
上个笔记讲过了各种误差。
2. 过拟合:
缺少了一般性,只在训练集上表现好,把样本的一些独特的特点当做一般的,比如误认为树叶一定欧锯齿。
3. 欠拟合:
相对,学习能力低,没有学到特点。
4. 评估方法:
留出测试集进行评估
1.留出法:
分层采样,训练和测试各占一定比例,正负样本也要考虑。
2.交叉验证:
分成训练集和测试集交叉验证(和上个笔记说的分成训练集,验证集和测试集是在样本容量足够大的情况随机分,现在的这种要重复使用数据)
3.自助法:
从数据集中有放回的随机采样,放入测试集,则在m次抽取中有
limm→∞(1−1m)m→1e
5. 模型度量:
回归任务常用的一些损失函数。分类任务常用acc,recall,precision,F1。
6. P-R曲线与平衡点
7. ROC和AUC:
使用真正例率( TPR=TPTP+FN )和假正例率( FPR=FTFT+TN )座位横纵坐标,auc是下面的面积。理解一些就是预测对的正例占总的正例比例(和recall是不是一样?),预测错的正例占总的错的比率。
8. 样本特征:x,样本值: y0 实际值:y 预测值:f(x;D)
1.期望预测
f−