机器学习中的实用问题解析
在机器学习领域,有许多实际问题需要工程师们去面对和解决。这些问题涵盖了从数据处理到模型训练的多个方面,下面我们将详细探讨其中的一些关键问题。
1. 上下文相关的领域
在某些情况下,工程师希望窗口中仅包含近期的示例,因为他们怀疑较旧的示例可能属于过时的上下文。分类器应仅反映窗口中包含的示例。在最简单的实现中,每次窗口内容更改时都会重新诱导分类器;或者,窗口内容的更改可能仅触发分类器的修改或调整。
有时候,旧的上下文可能会重新出现,例如由于某种“季节性”原因。因此,存储先前诱导的分类器版本是个不错的主意,以防将来可能会再次使用。
在滑动窗口方法中,工程师需要考虑以下几个基本问题:
- 窗口大小 :如果窗口太小,其中包含的示例可能不足以进行成功的学习;如果窗口太大,则可能包含来自过时上下文的示例。理想情况下,只要可以假设上下文没有改变,窗口就应该增长(不删除旧示例)。当检测到变化时,应删除一定数量的最旧示例,因为它们不再可信。
- 上下文变化的识别 :一种简单的解决方案是依赖分类器行为的反馈。上下文的变化可以通过分类性能的突然下降来识别。
- 删除最旧示例的数量 :答案取决于上下文变化的渐进程度以及变化的程度。在极端情况下,突然且显著的变化需要删除所有示例;而在另一个极端,两个非常相似的上下文之间的非常缓慢的过渡只需要删除少数最旧的示例。
2. 未知属性值
在许多领域中,某些属性值是未知的。这可能是由于患者拒绝提供信息、测量设备故障或信息丢失等原因造成的。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



