距离、网络方法与图论在数据科学中的应用
在数据科学的众多方法中,距离和网络方法是非常重要的一部分。它们在分类、插值、特征表示等方面都有着广泛的应用。本文将深入探讨最近邻分类器、图和网络的相关概念和应用。
最近邻分类器
最近邻方法的特性
最近邻方法具有以下显著特性:
- 简单性 :最近邻方法并不复杂,所涉及的数学知识不超过距离度量。这使得我们能够清楚地了解其工作原理,避免因错误或误解而产生问题。
- 可解释性 :研究给定查询点 q 的最近邻,可以准确解释分类器做出决策的原因。如果对结果有异议,可以系统地进行调试,检查相邻点的标签是否错误,或者距离函数是否未能选出与 q 逻辑上相似的点。
- 非线性 :最近邻分类器的决策边界是分段线性的,但可以根据训练示例的分布任意弯曲。从微积分的角度来看,当分段足够小时,分段线性函数可以逼近平滑曲线。因此,最近邻分类器能够实现非常复杂的决策边界,甚至是无法简洁表示的曲面。
寻求好的类比
某些学科依赖于类比的力量。例如,律师在推理时更多地依赖先例,而不是直接依据法律条文。医生在医疗实践中也常凭借经验,回忆与当前患者症状相似且康复的病例,并采用相同的治疗方法。
在预测房价时,我们可以使用线性回归,为每个房产特征(如地块面积、卧室数量)分配权重并相加;也可以寻找“可比房产”,即相似社区中的类似房产,并预测相似的价格,这就是类比推理。
建议获取具有领域知识和兴趣的数据集,进行寻找最近邻的实验。例如,http://www.base
超级会员免费看
订阅专栏 解锁全文
168万+

被折叠的 条评论
为什么被折叠?



