机器学习核心问题与算法优化解析

1、你认为“馅饼”领域可能存在哪种噪声?这种噪声的来源是什么?还有哪些问题可能导致这类训练集不够完美?

噪声与训练集问题

可能存在的噪声

  • 属性值噪声
  • 类标签噪声

噪声来源

属性值噪声

  • 测量误差
  • 数据录入错误等

类标签噪声

  • 随机噪声
  • 专家推荐的标签记录有误
  • 示例处于两类之间的“灰色区域”,导致正确标签不确定
  • 系统噪声
  • 如医生诊断罕见病时因证据不充分而倾向于给出阴性标签
  • 任意人为因素噪声
  • 出现在由自动化过程提供类别但过程出错的领域

其他导致训练集不完美的问题

  • 有很多可用信息可能是无关的、冗余的或缺失的
  • 训练集可能过小而无法涵盖所有关键方面

2、一枚硬币抛了三次,结果分别是正面、反面、反面。使用 m = 3 和 πheads = πtails = 0.5 来计算这些结果的 m - 估计值。

对于正面,N heads = 1,N all = 3,根据公式
P heads = (N heads + mπ heads ) / (N all + m),
可得
P heads = (1 + 3×0.5) / (3 + 3) = 2.5 / 6 = 5 / 12;

对于反面,N tails = 2,同理可得
P tails = (2 + 3×0.5) / (3 + 3) = 3.5 / 6 = 7 / 12。

3、解释在哪些情况下,假设属性相互独立对概率估计的准确性有益,并说明其优缺点。

当考虑单个属性时,若属性只能取两三个值,每个值在训练集中出现多次,能为概率估计提供更好依据。

假设属性相互独立的优点是:

  • 可以使用简单公式计算向量在特定类中的概率,即:
    $$
    P(x \mid c_j) = \text{各属性值在该类中概率的乘积}
    $$
  • 在贝叶斯分类器中,可通过该假设简化贝叶斯公式分子的计算来确定类别。

缺点是:

  • 该假设很少成立,现实中不同变量间的相互关系难以避免。
  • 违反“独立性要求”会使所有概率估计受到质疑。

不过,概率估计不准确不一定导致错误分类。

4、提出最近邻原则的其他变体:(a) 引入你自己的距离度量,距离度量需要满足一定的公理(如非负性、对称性、三角不等式等)。(b) 修改投票方案,假设一些示例是由知识渊博的“教师”创建的,而另一些是从数据库中提取的,未考虑每个示例的代表性,让教师创建的示例具有更大的权重。

可按以下方式提出最近邻原则的变体:

(a) 设计满足一定公理(如非负性、对称性、三角不等式等)的自定义距离度量;

(b) 修改投票方案,赋予教师创建的示例更大权重,以体现其更高的代表性。

5、发明一种去除冗余示例的替代算法。

以下是一种去除冗余示例的替代算法:

  1. 设定相似度阈值。
  2. 计算训练集中每对示例之间的相似度。可以根据数据类型选择合适的相似度度量方法,如:
    - 欧几里得距离
    - 余弦相似度
    - 等
  3. 对于每一个示例,检查其与其他示例的相似度。如果某个示例与已保留示例集合中的某个示例相似度超过设定的阈值,则认为该示例是冗余的,将其标记为待移除。
  4. 移除所有被标记为待移除的示例,得到去除冗余示例后的训练集。

6、设计一种算法,使用与常规方法不同的方式来去除无关属性。提示:保留一些训练示例,用于测试 1 - 近邻(1 - NN)分类器在不同属性子集上的性能。

以下是一个基于提示设计的去除无关属性的算法:

  1. 数据准备
    将可用的预分类示例集划分为训练集 Ttrain 和测试集 Ttest 。设 A 为所有属性的集合。

  2. 生成属性子集
    生成 A 的所有可能非空子集,记为 Subsets

  3. 评估属性子集
    对于 Subsets 中的每个属性子集 subset
    - 使用 subset 中的属性描述 Ttrain Ttest 中的所有示例。
    - 在 Ttrain 上训练 1-NN 分类器。
    - 在 Ttest 上评估该 1-NN 分类器的性能(如准确率、错误率等),记为 performance

  4. 选择最佳属性子集
    选择性能最佳(如准确率最高)的属性子集作为最终保留的属性子集 S

  5. 输出结果
    返回属性子集 S 作为去除无关属性后保留的属性集合。

7、如何利用线性分类器的归纳来识别无关属性?提示:尝试在不同的属性子集上运行学习算法,然后观察固定轮数训练后达到的错误率。另一个提示:查看权重。

可以尝试在不同的属性子集上运行学习算法,然后观察固定轮数训练后达到的错误率;也可以查看权重,以此来识别无关属性。

8、在什么情况

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值