关于《统计学习方法》中第三章构造kd树算法中的中位数问题

最新推荐文章于 2023-06-08 20:43:00 发布

原创最新推荐文章于 2023-06-08 20:43:00 发布 · 1.2k 阅读

5 ·

CC 4.0 BY-SA版权

本文针对《统计学习方法》一书中平衡kd树构建过程中的“中位数”概念进行了澄清，解释了为何选取特定点作为切分点，并提出了将“中位数”改为“中值”的建议。

最近在看李航所著的《统计学习方法》，很不错的一本书。但在第三章构造平衡kd树时，原书中说的是“以T中所有实例的x(1)坐标的中位数为切分点”（p42），此处的中位数说法自认为不准确。
根据随后给出的
例3.2 给定一个二维空间的数据集:
T={(2,3)T,(5,4)T,(9,6)T,(4,7)T,(8,1)T,(7,2)T}T={(2,3)T,(5,4)T,(9,6)T,(4,7)T,(8,1)T,(7,2)T}，构建一个kd平衡树。

我们可以看到，若是取2,5,9,4,8,7的中位数应该是6，但却是根据（7,2）这个点来切分的，随后的递归过程中也是如此，此处让我很困惑。
于是上了维基百科查了一下，原来代码中的中位数的定义为```

median = len(point_list) // 2 # choose median
location=point_list[median]

即列表长度除以2向下取整，2,4,5,7,8,9长度为6，取point_list[3]作为median，由于python索引从0开始，point_list[3]为7，这也可以说明后边的递归过程中为什么选择（4,7）和（9,6）
自认为应将此处的“中位数”说法改成“中值”避免混淆。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wzc_1230

关注关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【统计学习方法】学习笔记——第三章：K近邻法

小哲的博客

02-09

1033

统计学习方法学习笔记——K近邻法1. k近邻算法2. k近邻模型2.1模型2.2距离度量2.3 k值的选择2.4 分类决策规则3. 估计误差与近似误差3.1 估计误差3.2 近似误差3.3 两者区别与联系4. k近邻法的实现：kd树4.1 构造kd树参考资料 kkk近邻法（k-nearest neighbor, k-NN）是一种基本分类与回归方法。这里只讨论分类问题中的k近邻法。k近邻法的输入为实例的特征向量，对应于特征空间中点；输出为实例的类别，可以取多类。k近邻法假设给定一个训练数据集，其中的实例类别已

第三章 k近邻算法

xu_aml的博客

07-05

545

kkk近邻算法学习日志 第三章 kkk近邻算法 kkk近邻算法：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的kkk个实例，这kkk个实例的多数属于某个类，就把该输入实例分为这个类。输入：训练数据集 T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_...

1 条评论您还未登录，请先登录后发表或查看评论

1 条评论

qq_40740752 2019.08.12
大佬你解决了我困扰半天的问题啊！！！

kd树之中位数问题

s1162276945的博客

02-20

2092

统计学习方法一书在41页根据x维上的值将数据排序，6个数据的中值(所谓中值，即中间大小的值)为什么为7，为什么不是5或者6呢？5和7的平均值不是6吗？摘自维基百科kd-tree的Python代码 point_list.sort(key=itemgetter(axis)) median = len(point_list) // 2 # choose median location=point_l...

机器学习中K-近邻算法——Kd树的构造及搜索方法

Mr.Zhang_9436的博客

10-23

554

摘要：本文以实例介绍了机器学习中K-近邻算法中Kd树的构造及搜索原理，代码实现会在下一篇文章中分享。如果有什么问题欢迎私聊一起讨论。 Kd树的构造示例：给定一个二维空间数据集：T={(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)},构造一个Kd树。 Kd树的搜索示例：查找点（2，4.5） ...

Kd树构造

Morphine_的博客

04-04

4309

Kd树–总结 1. KdTree构造以经典的2D样本点集合为例data = [(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)]来展示构造过程。排序从0维度开始，这里就是x轴的维度，以x维度对样本集合点排序。 data = [(2,3)(4,7)(5,4)(7,2)(8,1)(9,6)}] 中位数 注意：有时候样本点的个数为偶数，这时的中位数的坐标可以直接使用整除确定。 split= len(point) // 2 => 这里split

机器学习 kNN 算法之图解 kd 树

小牛肉的博客

08-15

877

???? 本文收录于Github仓库，欢迎前来 star 呀~ https://github.com/Veal98/CS-Wiki ????‍ 在线阅读地址/更好的阅读体验请移步：https://veal98.gitee.io/cs-wiki/ 4. k 近邻算法的实现 2：kd 树 ① 概述实现 k 近邻算法时，主要考虑的问题就是如何对训练数据进行快速 k 近邻搜索。 k 近邻法最简单的实现方法是线性扫描 linear scan，这需要计算输入实例与其他每个训练实例的距离，在训练集很大的时候，这

机器学习之 kd 树

但行好事，莫问前程

10-31

1414

参考自：https://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247483793&idx=1&sn=d42f4f06225cd1f792912dfecdc800ea&chksm=ebb43945dcc3b0538ba10187c999a050137b96a05f402b9fe99f0a972d7ba0bce50...

机器学习算法------1.5 kd树(kd树简介、kd树构造方法、kd树案例分析)

程序猿-凡白的博客

07-12

2573

文章目录1.5 kd树学习目标1 kd树简介1.1 什么是kd树1.2 原理2 构造方法3 案例分析3.1 树的建立3.2 最近领域的搜索3.2.1 查找点(2.1,3.1)3.2.2 查找点(2,4.5)4 总结 1.5 kd树学习目标目标知道kd树构建和搜索过程问题导入：实现k近邻算法时，主要考虑的问题是如何对训练数据进行快速k近邻搜索。这在特征空间的维数大及训练数据容量大时尤其必要。 **k近邻法最简单的实现是线性扫描（穷举搜索），即要计算输入实例与每一个训练实例的距离。计算并存

统计学习方法——生成KD树

qq_42181546的博客

10-23

586

前言实现KNN算法时，当样本维度很大或训练样本数量巨大时，实现对数据的快速搜索，对提高计算效率有很大意义。实现KNN最简单的方法是线性扫描，通俗来讲，就是要把输入数据和已有的所有训练数据都计算出来，比对距离大小，从众多样本中找K个近邻样本。为了提高查找计算效率，可以采用特殊的数据结构存储训练数据，以减少计算距离的次数。代码原创，转载请注明出处。一、KD树是什么？ KD树是一种查询索引结构，广泛应用于数据库索引中。换成低维空间比较容易思考：给定一个数组[99,56,85,23,66,12，101

李航 统计学习方法例3.2 构造平衡kd数

weixin_40230767的博客

01-16

1142

# weihuizi import operator import numpy as np # kd-tree每个结点中主要包含的数据结构如下 class KdNode(object): def __init__(self, dom_elt, split, left, right): self.dom_elt = dom_elt # k维向量节点(k维空间中的一个样本点

算法（1）：KD树的原理与基本代码

qq_41904236的博客

06-08

1万+

由于在做项目时遇到平面内最近点求解的问题，需要用到KD树简化算法，减少计算资源，因此本文记录这个过程中学到的知识。

机器学习系列之——Knn算法 kd树详解

Nick_Dizzy的博客

04-02

862

关于knn算法，对特征空间进行划分的方法为计算新的输入实例与训练实例之间的距离，因为在特征空间中2个特征实例的相似程度可以用距离来表示。一般我们采用的是欧式距离，也就是说每个新的输入实例都需要与所有的训练实例计算一次距离并排序。当训练集非常大的时候，计算就非常耗时、耗内存，导致算法的效率降低。以上是对knn算法的简单理解。 kd树（k-dimensional树的简称）是一种对k维空间中的实例点进...

详解Kd树之构造

疯狂小羊的博客

12-21

2411

度娘的定义：k-d树（k-dimensional树的简称），是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索（如：范围搜索和最近邻搜索）。K-D树是二进制空间分割树的特殊的情况。度娘还给了具体的例子来讲解如何去构造一颗kd树。发现好多博客都一样，来源于度娘本身。以java实现了它，现在分解下代码的实现步骤。一、对于KD树的数据结构，设计为： class SNod

K近邻算法（kNN）学习——kd树

yshujuan的博客

06-10

1594

kNN算法的简介，kd树构建，kd树搜索

kd树（K-dimensional tree）

qq_40692109的博客

10-21

1万+

kd-tree简介 Kd-Tree（K-dimensional tree），是一种高维索引树形数据结构，经常使用于在大规模的高维数据空间进行最近邻查找，比如图像检索和识别中的高维图像特征向量的K近邻查找与匹配（查找与所给数据最接近的k个数）。 kd树结构类似于高维的二叉树，树中存储的是一些K维数据。在一个K维数据集合上构建一棵Kd-Tree代表了对该K维数据集合构成的K维空间的一个划分。 kd-t...

李航《统计学习方法》----KNN--例题解析+ 机器学习实战

weixin_37550997的博客

01-13

5075

（文章底部有代码和数据链接）模型介绍 k近邻算法（k-nearest neighbor ,k-NN) 基本思想是：特征空间中的每个样本都可以用与它最近的K个邻居来代表。分类的过程是：k个邻居进行投票，将待预测样本归入得票最多的类别里面。模型三要素（1）k值的选择（2）距离的度量方法（3）分类决策规则常见的距离度量方式设两个n维向量 x1和x2之间的距离度量方式有： 1、曼哈顿距离...

数据结构（四）：KD树