距离、网络方法与最近邻分类技术解析
1. 最近邻分类器的特性
最近邻方法具有诸多显著特性,这些特性使其在数据分类领域具有独特的优势。
- 简单性 :最近邻方法并不复杂,所涉及的数学知识不过是距离度量。这一特性十分关键,它让我们能够清晰地了解算法的运行机制,避免因错误或误解而导致的问题。
- 可解释性 :研究给定查询点 (q) 的最近邻,能够确切地解释分类器做出决策的原因。若对分类结果存在异议,我们可以系统地进行调试,检查相邻点的标签是否错误,或者距离函数是否未能准确找出与 (q) 逻辑相近的点。
- 非线性 :最近邻分类器的决策边界是分段线性的,但可以根据训练示例任意弯曲,如图 10.3 所示。从微积分的角度来看,当分段足够小时,分段线性函数会趋近于平滑曲线。因此,最近邻分类器能够实现非常复杂的决策边界,甚至是那些无法简洁表示的曲面。
2. 寻求良好的类比
在许多知识领域,类比推理都发挥着重要作用。
- 法律领域 :律师在处理案件时,并非直接依据法律条文进行推理,而是更多地依赖先例,即受尊敬的法学家先前判决的案件结果。当前案件的正确决策(胜诉或败诉)取决于哪些先前案件与手头案件在本质上最为相似。
- 医疗领域 :许多医疗实践依赖于经验。老乡村医生会回忆之前有类似症状且康复的患者案例,然后给当前患者使用相同的治疗方法。例如,作者信任八十多岁的医生,而不是那些只依赖医学院最新知识的年轻医生。
- 房地产领域
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



