1、你认为“馅饼”领域可能存在哪种噪声?这种噪声的来源是什么?还有哪些问题可能导致这类训练集不够完美?
噪声与训练集问题
可能存在的噪声
- 属性值噪声
- 类标签噪声
噪声来源
属性值噪声
- 测量误差
- 数据录入错误等
类标签噪声
- 随机噪声
- 专家推荐的标签记录有误
- 示例处于两类之间的“灰色区域”,导致正确标签不确定
- 系统噪声
- 如医生诊断罕见病时因证据不充分而倾向于给出阴性标签
- 任意人为因素噪声
- 出现在由自动化过程提供类别但过程出错的领域
其他导致训练集不完美的问题
- 有很多可用信息可能是无关的、冗余的或缺失的
- 训练集可能过小而无法涵盖所有关键方面
2、一枚硬币抛了三次,结果分别是正面、反面、反面。使用 m = 3 和 πheads = πtails = 0.5 来计算这些结果的 m - 估计值。
对于正面,N heads = 1,N all = 3,根据公式
P heads = (N heads + mπ heads ) / (N all + m),
可得
P heads = (1 + 3×0.5) / (3 + 3) = 2.5 / 6 = 5 / 12;
对于反面,N tails = 2,同理可得
P tails = (2 + 3×0.5) / (3 + 3) = 3.5 / 6 = 7 / 12。
3、解释在哪些情况下,假设属性相互独立对概率估计的准确性有益,并说明其优缺点。
当考虑单个属性时,若属性只能取两三个值,每个值在训练集中出现多次,能为概率估计提供更好依据。
假设属性相互独立的优点是:
- 可以使用简单公式计算向量在特定类中的概率,即:
$$
P(x \mid c_j) = \text{各属性值在该类中概率的乘积}
$$ - 在贝叶斯分类器中,可通过该假设简化贝叶斯公式分子的计算来确定类别。
缺点是:
- 该假设很少成立,现实中不同变量间的相互关系难以避免。
- 违反“独立性要求”会使所有概率估计受到质疑。
不过,概率估计不准确不一定导致错误分类。
4、提出最近邻原则的其他变体:(a) 引入你自己的距离度量,距离度量需要满足一定的公理(如非负性、对称性、三角不等式等)。(b) 修改投票方案,假设一些示例是由知识渊博的“教师”创建的,而另一些是从数据库中提取的,未考虑每个示例的代表性,让教师创建的示例具有更大的权重。
可按以下方式提出最近邻原则的变体:
(a) 设计满足一定公理(如非负性、对称性、三角不等式等)的自定义距离度量;
(b) 修改投票方案,赋予教师创建的示例更大权重,以体现其更高的代表性。
5、发明一种去除冗余示例的替代算法。
以下是一种去除冗余示例的替代算法:
- 设定相似度阈值。
- 计算训练集中每对示例之间的相似度。可以根据数据类型选择合适的相似度度量方法,如:
- 欧几里得距离
- 余弦相似度
- 等 - 对于每一个示例,检查其与其他示例的相似度。如果某个示例与已保留示例集合中的某个示例相似度超过设定的阈值,则认为该示例是冗余的,将其标记为待移除。
- 移除所有被标记为待移除的示例,得到去除冗余示例后的训练集。
6、设计一种算法,使用与常规方法不同的方式来去除无关属性。提示:保留一些训练示例,用于测试 1 - 近邻(1 - NN)分类器在不同属性子集上的性能。
以下是一个基于提示设计的去除无关属性的算法:
-
数据准备 :
将可用的预分类示例集划分为训练集Ttrain和测试集Ttest。设A为所有属性的集合。 -
生成属性子集 :
生成A的所有可能非空子集,记为Subsets。 -
评估属性子集 :
对于Subsets中的每个属性子集subset:
- 使用subset中的属性描述Ttrain和Ttest中的所有示例。
- 在Ttrain上训练 1-NN 分类器。
- 在Ttest上评估该 1-NN 分类器的性能(如准确率、错误率等),记为performance。 -
选择最佳属性子集 :
选择性能最佳(如准确率最高)的属性子集作为最终保留的属性子集S。 -
输出结果 :
返回属性子集S作为去除无关属性后保留的属性集合。
7、如何利用线性分类器的归纳来识别无关属性?提示:尝试在不同的属性子集上运行学习算法,然后观察固定轮数训练后达到的错误率。另一个提示:查看权重。
可以尝试在不同的属性子集上运行学习算法,然后观察固定轮数训练后达到的错误率;也可以查看权重,以此来识别无关属性。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



