7、大规模最近邻数据挖掘的高效模型选择

最新推荐文章于 2025-10-20 11:47:46 发布

week9

最新推荐文章于 2025-10-20 11:47:46 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：数据安全与智能前沿文章标签： k-近邻模型选择大规模数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/week9/article/details/154166407

数据安全与智能前沿专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大规模最近邻数据挖掘的高效模型选择

1. 未知 K* 下的执行

算法 1 和算法 2 都需要 K 作为输入。但在一些应用中，k 的合理上限是未知的。不过，我们可以对这两个算法进行修改，以动态确定合适的 K 值。

首先引入一个谓词 nextk()，它会检查到目前为止的交叉验证结果，只要值得检查更大的 k 值，就返回 true。后续分析假设 nextk() 的运行时间可以忽略不计。

1.1 修改算法以确定 K*

算法 1 的修改 ：将 “for k = 1 to K do” 替换为 “while nextk() do”，这样既支持 K 已知的情况，也支持需要动态确定 K 的情况。例如，当 K = √n 时，只要 k ≤ √n，nextk() 就返回 true；在 K* 未知的情况下，只要 k ≤ argmini loss(i) + 15，nextk() 就返回 true。
算法 2 的修改 ：由于算法 2 假设 K 已知，我们在其外部添加一个循环来选择 K ，运行算法 2，然后调用 nextk() 来判断 K 是否足够大。如果不够大，外层循环将 K 加倍并重复。这个包装器可以从先验知识建议的 K 值开始，否则从 K = 1 开始。

我们定义 K N（K O）为算法 1（2）中考虑的 k 的最大值。注意，K N ≤ K O，因为 K

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。