机器学习 is what?
- “学习算法”
-
能从大量数据中学习出其背后潜在规律的算法
● 工业实践:机器学习系统
● 一般机器学习中的模型即为一个函数
一些概念
版本空间&假设空间
● 版本空间:能够拟合训练集的模型(假设)构成的集合称为
● 假设空间: 假设的函数空间
● 具体例子:
● 故假设空间一般会更大一些
算法&模型
● 算法:更多是通用的方法
● 模型:通过算法结合具体的数据得出来的具体的结果
○ 都可以抽象地看作为输入空间
X
\mathcal{X}
X到输出空间
Y
\mathcal{Y}
Y的映射
样本&特征&特征工程
● 特征工程:将样本属性值变为数字
● 假设获取到的样本都是独立同分布的
○ 收集到的样本越多,越能从样本中反推出样本分布的信息
数据量与模型关系
● 数据量越大,模型效果越好–>因为数据量大表示累计的经验多–>模型学到的经验多–>效果越好
● 特征工程–>特征数值化越合理–>特征收集越全面越细致 -->效果越好 【找到关键特征!】
● 数据决定模型上限,算法则是让模型无限逼近上限
西瓜书笔记部分
1 绪论
奥卡姆剃原则:凡无必要,勿增实体
No Free Lunch Theorem: 众算法生而平等
「模型选择」:即选用哪一个学习算法,使用哪一种参数配置?
2 模型评估与选择
无法直接求泛化误差,故使用一个“测试集”来测试学习器对新样本的判别能力;然后以测试集的“测试误差”作为泛化误差的近似
2.1 模型评估方法
留出法hold-out
概念:将数据集划分为两个互斥的部分
注意事项:
● 数据一致性:采用"分层采样"
● 数据不稳定性:采用若干次随机划分,返回多次结果的平均
(k折)交叉验证 cross-validation
概念:
● 将数据集D划分为k个大小相似的互斥子集,
● 每次采用k-1个子集的并集作为训练集合,剩下子集作为测试集
● 进行k次训练和测试,最终返回k个测试结果的均值
留一法 leave-one-out ,LOO
● 是k=m(m为样本数)的特殊情况,即每次只用一个样本作为测试集
自助法 bootstrapping
● 每次随机从D中挑选一个样本放入D’中,再将样本放回D,重复m次,则得到了包含m个样本的数据集
○ 样本在m次采样中始终不被采到的概率为
(
1
−
1
m
)
m
(1-\frac{1}{m})^m
(1−m1)m,取极限得到
lim
m
→
∞
(
1
−
1
m
)
m
=
1
e
≈
0.368
\lim_{m\rightarrow\infty}(1-\frac{1}{m})^m=\frac{1}e\approx 0.368
limm→∞(1−m1)m=e1≈0.368
■ 即D中约有36.8%的样本未出现在D’中,于是将D’用作训练集,D\D’作为测试集
● 优点:在数据集较小,难以有效划分训练/测试集时很有用
● 缺点:改变了初始数据集的分布,引入估计偏差;;;故,在初始数据量足够时,留出法和交叉验证法更常用
2.2 调参
● 模型评估与选择中用于评估测试的数据集–验证集
● 研究对比不同算法的泛化性能时
○ 用测试集上的判别效果来估计模型实际使用中的泛化能力
○ 把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参
2.3 性能度量–衡量模型泛化能力的评价标准
● 性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果
● 给定样例集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
m
,
y
m
)
}
D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\}
D={(x1,y1),(x2,y2),⋯,(xm,ym)}
回归任务:常用的为均方误差MSE
分类任务:
1 错误率与精度
对于样例D
2 查准率Precision、查全率(Recall)与F1
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP 被预测为正例的中,真正正例的
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP所有正例中,被预测为正例的
一般来讲,查准率一高一低,无法同时高
● 为了解决此,更常用的是F1度量(P和R的调和平均)
F
1
=
2
×
P
×
R
P
+
R
=
1
2
(
1
P
+
1
R
)
F1=\frac{2\times P\times R}{P+R}=\frac{1}2(\frac{1}P+\frac{1}R)
F1=P+R2×P×R=21(P1+R1)
ROC、AUC
根据预测结果,将测试样本进行排序,“最可能”是正例的排在最前面;“最不可能”是正例的排在最后
● ROC 受试者工作特征(Receiver Operating Characterisitic)
○ 根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,分别以TPR(纵轴)、FPR(横轴)作图
○ 具体:
● 以上都是认为均等代价的情况下算的
参考
- https://www.bilibili.com/video/BV1Mh411e7VU/?p=2&vd_source=5a5a81a22597b4f5677b9020ce08c277
- 周志华《机器学习》