ESL学习之kNN

最新推荐文章于 2025-06-24 03:19:08 发布

原创最新推荐文章于 2025-06-24 03:19:08 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

machine learning 专栏收录该内容

3 篇文章

订阅专栏

本文探讨了kNN算法在高维空间中的局限性。随着维度增加，最近邻点更可能分布在较远处，而非靠近目标点。通过半径为0.5的球体体积与总球体体积的比例变化说明了这一现象。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在利用kNN进行分类时，我们是选择一个点的k个最近的neighbor的一些属性来估计当前点的属性。

kNN的一个局限性就在于当参数空间的维数p增大后，这k个neighbor更趋近于分布在离当前点较远的那部分。意思就是在一个半径为1的p维球体中，若存在k个点，那么这k个点更趋近于这个球体的边缘，这是为什么呢。

作为一个大概的理解，考虑在半径为0.5的地方，那么0.5半径以内的球体体积为exp（0.5，p），由于整体球体体积为1，故0.5半径内所占整体球体的体积会随着p的增大而逐渐趋向于0，所以这k个点更趋向于分布在0.5以及更远的地方。

下面是具体的数学表达。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bt_czc30114

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

ESL读书笔记2b：bias-variance tradeoff之 knn在k=1情况下受目标函数影响的bias和variance

silent56_th的博客

09-19

2682

本文为Element of Statistical Learning (ESL, https://web.stanford.edu/~hastie/ElemStatLearn/)的读书笔记。文中并不全是对原书的总结整理，很多内容是基于原书，笔者自己的演绎，不具有权威性，欢迎指教。第二章框架请看：ESL读书笔记2a：监督学习框架总览（未完待续）此部分主要讨论knn（k nearest neighb

ES-KNN搜索

wu892355227的博客

03-04

2568

怎么使用ES做向量查询

参与评论您还未登录，请先登录后发表或查看评论

探索Elasticsearch 中的KNN—从KNN的起源到Elasticsearch中的应用

最新发布

2503_91812631的博客

06-24

430

KNN（K- Nearest Neighbor）法即K最邻近法，最初由 Cover和Hart于1968年提出，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路非常简单直观：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。④对K个点所属的类别进行比较，根据少数服从多数的原则，将测试样本点归入在K个点中占比最高的那一类。对于一个新的样本，找到训练集中最近的K个邻居，然后根据这些邻居的类别进行投票决定新样本的类别。

ESL第二章Overview of Supervised Learning knn有效参数、统计决策理论/贝叶斯分类器/贝叶斯阶、维度灾难、可加误差模型、三次光滑样条/核方法/基函数/字典方法

小树屋

11-10

522

（开始读ESL，写点笔记，不会像PRML那样抄书，只列不熟悉的内容，尤其是偏频率派的。具体的内容翻书）前言和第一章写了一些思想性的和导论性的东西，可以翻一翻目录2.3 Two Simple Approaches to Prediction: Least Squares and Nearest Neighbors2.3.3 Nearest-Neighbor Methods 2.3 Two Simple Approaches to Prediction: Least Squares and Nearest

ES 近一年新版本，关于knn的新功能与优化

Angus

08-26

1661

近一年，es发布了很多个版本。本文，主要整理了es关于knn搜索相关的优化项。也放了官方文档的链接。

java程序中使用ES knn搜索

AI炼丹师的专栏

06-16

1961

Elasticsearch 向量搜索应用介绍_es 向量检索_文晓武的博客-优快云博客Elasticsearch8.x KNN search 使用方式及参数介绍_elasticsearch knn_小帅毛的博客-优快云博客ElasticSearch的Dense Vector_elasticsearch dense vector_若石之上的博客-优快云博客Elastic Search : 8.0.1 RestClient restClient = RestClient.builder(

统计学习ESL 第二章

Shenglei Sketches

10-02

1739

LR, KNN, MSE Decomposition, Generic Model

《机器学习模型思考》系列：线性回归模型的基本假设

01-06

/关注长歌大腿公众号，发送“机器学习”关键字，可获取包含机器学习（包含深度学习)，统计概率，优化算法等系列文本与视频经典资料，如《ESL》《PRML》《MLAPP》等。/ 文章来源《机器学习模型思考》系列：线性回归...

ESL作业笔记2.5：最小二乘法预测输出的误差期望

silent56_th的博客

09-20

6758

使用最小二乘法可以得到一个线性回归模型，然后使用得到的模型可以得到预测输出，本文讨论这个预测输出和目标值之间的误差期望。

ESL与AI：如何将人工智能融入电子系统设计中

[ESL与AI：如何将人工智能融入电子系统设计中](https://opengraph.githubassets.com/3818ecbb76547f8689fba018ad10c34d908c2e5e66b4010d3c678b61c2e4b2e7/1997alireza/RNN-Language-Model) # 摘要随着技术的进步，...

观点 | 观远数据字节：算法工程师技术路线图

AI+BI,大数据分析,数据可视化,商业智能,数据驾驶舱 - 观远数据

08-26

2035

《观点》是由观远数据倾力打造的一档技术类干货分享专栏，所有内容均来源于观远数据内部员工，旨在为数据分析行业输出指导性的知识体系。本文来源于观远数据联合创始人兼首席数据科学家字节内部分享。该文章通过知乎平台发布一天内就获得了30000+浏览量、2500+收藏和近千条点赞，在算法工程师群体中引起一波热议。作者简介-周远（花名：字节） • 观远数据联合创始人兼首席数据科学家 • 知乎机器学习领域KOL • 致力于算法前沿技术在泛零售消费领域的应用落地，深度参与主导了多个AI项目在行业头部、世界五百强客户的

Elasticsearch向量检索（KNN）千万级耗时长问题分析与优化方案

Angus

08-26

2656

第一次对索引进行查询时，如果预加载的文件（如 .vec、.vem、.vex 文件）尚未被加载到内存中，Elasticsearch 需要从磁盘读取这些文件，并将它们加载到内存中。占用的是服务器的内存。对于es条件，相同的条件会命中缓存，在测试过程中，应该通过替换检索条件的内容，来避免查询缓存的影响。当新的段文件生成（例如在写入数据或合并段时），这些新的段文件同样需要在首次访问时加载到内存中，这也可能导致第一次查询变慢。经过排查发现，检索的过程中，只用knn检索，耗时短，加上ANN检索后，耗时变长。

Elasticsearch：简化 KNN 搜索

Elastic 中国社区官方博客

04-18

4051

在这篇博客文章中，我们将深入探讨我们为了使 KNN 搜索的入门体验变得更加简单而做出的努力！我们在 Elastic 处理 knn 搜索的方式在不断进化，我们持续引入新功能和改进，因此这些参数和整体评估很可能很快就会过时！我们总是在密切关注，一旦发生变化，我们将确保跟进并相应调整我们的配置！需要记住的一件重要事情是，这些值仅作为简化入门体验和非常通用用例的合理默认值。用户可以轻松地在自己的数据集上进行实验，并根据自己的需求进行相应调整（例如，在某些情况下，召回率可能比延迟更重要）。

ES8 向量搜索(knn-search)java-api 实践

VISION_SONG的博客

06-19

8366

es8 向量搜索, java-api 实践

ESL第十三章原型方法和最近邻免模型方法、原型方法/k均值聚类/学习向量量化/高斯混合、kNN/不变流形/不变度量/正切距离/形状平均、自适应最近邻方法/判别自适应最邻近/全局降维、编辑/压缩

小树屋

12-25

740

目录13.1 导言13.2 原型方法13.2.1 K均值聚类13.2.2 学习向量量化Learning Vector Quantization, LVQ13.2.3 高斯混合13.3 k近邻分类器13.3.1 例子：比较研究13.3.2 例子：k近邻和图像场景分类13.3.3 不变度量invariant metrics和正切距离tangent distance13.4 自适应最近邻分类器13.4.1 例子13.4.2 最近邻的全局降维13.5 计算考虑 13.1 导言 P459 本章介绍免模型方法mode

ElasticSearch 8.0 新特性之kNN搜索

duzm200542901104的专栏

02-22

9554

kNN搜索是通过相似度判断来根据查询向量查找K个邻近的向量使用kNN的场景有： 1、基于自然语言处理（NLP）算法的相关性排序 2、产品推荐和推荐引擎 3、图片或视频的相似搜索前置条件： 1、为了运行kNN搜索，我们需要把我们的数据转换成有意义的向量值。然后把向量值添加到文档的dense_vector类型的字段里面。查询向量也需要有相同的维度 2、基于相似度来设计我们的向量，使与查询向量越接近的文档的向量其匹配越好 kNN方法： ES支持两种kNN搜索的方法： 1、近似kNN:使用k

【解决方案】RAG实践：ES混合搜索BM25+kNN(cosine)

天然玩家的博客

07-07

3001

本系列分为两大部分：**实践**和**理论**。 **先讲**实践，**应对快速开发迭代**，可快速上手实践； **再讲**理论，**应对优化**，如归一化。

es使用knn向量检索中numCandidates和k应该如何配比更合适

dreamzuora的博客

12-19

1424

在KNN检索中，k 和 numCandidates 是两个关键参数，它们直接影响检索的准确性和性能。通常，numCandidates应设置为k的10倍左右，但具体比例需要根据数据规模、向量维度和性能需求进行调整。这是因为k个最近邻需要从numCandidates个候选中选出，如果numCandidates小于k，系统将无法返回足够数量的结果，导致查询失败或返回不完整的结果。• 大规模数据（如亿级文档）：numCandidates 可以设置为k的20-30倍，甚至更高，具体视硬件资源和性能需求而定。

统计学习基础esl答案

10-26

《统计学习基础》是斯坦福大学教授Trevor Hastie、Robert Tibshirani和Jerome Friedman合著的一本经典教材，是统计学习领域的权威之作。该书系统地介绍了统计学习的基本概念、原理和方法，并提供了丰富的实例和练习...