机器学习实用技巧与挑战
在机器学习领域,实际应用中会遇到各种各样的问题,这些问题可能会影响模型的性能和效果。下面将详细介绍一些常见的问题及相应的解决方法。
1. 上下文相关领域与滑动窗口方法
在某些情况下,工程师希望窗口仅包含最近的示例,因为他们怀疑较旧的示例可能属于过时的上下文。分类器应该仅反映窗口中包含的示例。最简单的实现方式是,每次窗口内容更改时重新诱导分类器;或者,窗口内容的更改仅触发分类器的修改或调整。
有时候,旧的上下文可能会重新出现,例如由于某种“季节性”。因此,存储先前诱导的分类器版本是个不错的主意,以防将来可能会重新使用。
在使用滑动窗口方法时,工程师需要考虑一些基本问题:
- 窗口大小 :窗口太小,其中的示例可能不足以进行有效的学习;窗口太大,则可能包含来自过时上下文的示例。理想情况下,只要可以假设上下文没有改变,窗口就应该增长(不删除旧示例)。当检测到变化时,应删除一定数量的最旧示例,因为它们不再可信。
- 上下文变化的识别 :一种简单的解决方案是依赖分类器行为的反馈。上下文的变化可以通过分类性能的突然下降来识别。
- 删除最旧示例的数量 :这取决于上下文变化的渐进程度和变化的程度。如果变化突然且显著,则需要删除所有示例;如果是两个非常相似上下文之间的缓慢过渡,则只需要删除少数最旧的示例。
2. 未知属性值问题
在许多领域中,某些属性值是未知的。这可能是由于患者拒绝提供信息、测量设备故障或信息丢失等原因导致的。未知属性值会对机器学习产生不利影响:
超级会员免费看
订阅专栏 解锁全文
1699

被折叠的 条评论
为什么被折叠?



