Medians and Order Statistics (次序统计)

本文介绍如何通过快速排序的变种算法高效地找出数组中的中位数及任一指定次序的元素。讨论了分组策略及其时间复杂度,并提供了一个具体的JavaScript实现案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

[b]Medians and Order Statistics[/b]

------
[b]概述[/b]

Order Statistics:
次序统计,即 找出 n 个数中 排在 第 i 位 的那个数,记为 ith

Medians:
中位数,排在中间的数,

------
[b]Medians 的取值[/b]

假设所有的数都不相同,则:
n = odd 时,只有1个 中间数,i = (n+1)/2,
n = even 时,有2个 中间数,i = n/2 和 i = n/2 + 1,

可以合并为:
i =
lower((n + 1)/2),
upper((n + 1)/2),
对于 odd 2者相同,对于 even 2者不同,

------
[b]最大 & 最小 值[/b]

通过 n-1 次比较可以找出 最大 或 最小值,
如果要同时找2者,则可以合并一下,让比较次数小于 2*(n-1),因为如果一个数比另1个数小,则该数必定不是 最大值,反之亦然,

------
[b]次序查找 - 每次分割2组 实现[/b]

概述:
通过 分隔函数实现 查找,

效率:
时间复杂度: 预期效率是 O(n)
空间复杂度: O(n)

思路:
基于 quicksort 改造,但每次只取其中的一半,从而效率降低到 O(n),


分隔函数的逻辑:
* 取分隔值,
* 如果分隔值就是目标值,则 ok
* 否则 将数组分隔为 左右2个,
* 判断目标数在哪个数组内,保留那个数组,对其循环调用分隔函数
*

时间复杂度 证明:
略,看 <算法导论> chp9.2

------
[b]次序查找 - 每组5个分割 实现[/b]

较为复杂,最差情况下 时间复杂度为 O(n),

参考:<算法导论> chp9.3

------
[b]例子:[/b]

([b]顺序号 查找 - 每次分割2组 实现[/b])

* js(order_statistic.js)

var arr_order_statistic = [ 78, 13, 6, 177, 26, 90, 288, 45, 62, 83 ];

/**
* <p>
* order statistic , 找出排序为 i 的值
* </p>
* <b>思路:</b><br />
* 基于 quicksort 改造,但每次只取其中的一半,从而效率降低到 O(n),<br />
*
* <pre>
* 分隔函数的逻辑:
* 取分隔值,
* 如果分隔值就是目标值,则 ok
* 否则 将数组分隔为 左右2个,
* 判断目标数在哪个数组内,保留那个数组,对其循环调用分隔函数
* </pre>
*
* <b>时间复杂度:</b>O(n)<br />
* <b>空间复杂度:</b>O(n)<br />
*
* @author kuchaguangjie
* @date 2011年1月3日
* @return
*/
function OrderStatistic(inputArr) {
this.inputArr = inputArr;
}
/**
* 单次分隔
*
* @param arr
* @param i
* 在 arr 中的排序,从 0 开始
* @return 存有目标值的子数组 或 目标值
*/
OrderStatistic.prototype.partitionSingle = function(arr, i) {
if (arr.length <= 1) { // length == 1 的情况,length == 0 应该在上层函数中排除掉,
return new OrderStaticResult(true, undefined, undefined, arr[0]);
}
var partLeftArr = [];
var partRightArr = [];
var partMiddle = arr[arr.length - 1]; // 最后1个元素,用作分隔值
for ( var x = 0; x < arr.length - 1; x++) {
if (arr[x] <= partMiddle) {
partLeftArr[partLeftArr.length] = arr[x];
} else {
partRightArr[partRightArr.length] = arr[x];
}
}
if (partLeftArr.length == i) { // 分隔值 即是 目标值
return new OrderStaticResult(true, undefined, undefined, partMiddle);
} else if (partLeftArr.length > i) { // 目标值 在 左子数组
return new OrderStaticResult(false, partLeftArr, i);
} else { // 目标值 在 右子数组
i -= (partLeftArr.length + 1); // 调整 i
return new OrderStaticResult(false, partRightArr, i);
}
};
/**
* 分隔函数,直到找到目标值为之
*
* @param i
* @return
*/
OrderStatistic.prototype.partition = function(i) {
var arr = this.inputArr;
var osr;
while (true) {
osr = this.partitionSingle(arr, i);
if (osr.ok) {
return osr.v;
} else {
arr = osr.subArr;
i = osr.i;
}
}
};
/**
* 根据 排序号 找到数
*
* @param order
* 排序号,从 1 开始
* @return
*/
OrderStatistic.prototype.getByOrder = function(order) {
if (this.inputArr.length == 0 || this.inputArr.length < order) {
alert('输入有误!');
} else {
var i = order - 1; // index 从 0 开始,而顺序号是从 1 开始,这里做调整
return this.partition(i);
}
};

/**
* 单次 分隔计算 后的返回值
*
* @param ok
* boolean 值,表示 是否已找到
* @param subArr
* 目标值所在的子数组,当 ok = false 时,采用此数组
* @param i
* 目标值在的子数组中的排序,从 0 开始,当 ok = false 时,采用此值
* @param v
* 目标值,当 ok = true 时,才用此值
* @return
*/
function OrderStaticResult(ok, subArr, i, v) {
this.ok = ok;
this.subArr = subArr;
this.i = i;
this.v = v;
}


* html

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<script type="text/javascript" src="js/order_statistic.js"></script>
</head>
<body>
<input type="button" value="order statistic" onclick="var i = 6;alert(arr_order_statistic + ' 中,\n排在第'+ i +'位的是: '+ new OrderStatistic(arr_order_statistic).getByOrder(i));" />
</body>
</html>


*

------
### K-Medians 算法简介 K-medians 是一种聚类分析算法,类似于著名的 K-means 算法。不同之处在于 K-medians 使用曼哈顿距离(L1 范数)来计算样本之间的差异,而 K-means 则使用欧几里得距离(L2 范数)。这种变化使得 K-medians 对异常值更加鲁棒。 ### Python 实现 K-Medians 算法 以下是基于 Python 的简单 K-medians 算法实现: ```python import numpy as np def manhattan_distance(point1, point2): return sum(abs(a - b) for a, b in zip(point1, point2)) def kmedians(data, k=3, max_iterations=100): # 随机初始化质心 centroids = data[np.random.choice(range(len(data)), size=k, replace=False)] for _ in range(max_iterations): clusters = [[] for _ in range(k)] # 将数据分配给最近的质心 for item in data: distances = [manhattan_distance(item, centroid) for centroid in centroids] closest_centroid_index = np.argmin(distances) clusters[closest_centroid_index].append(item) new_centroids = [] for i in range(k): if not clusters[i]: continue cluster_median = np.median(clusters[i], axis=0) median_distances = [manhattan_distance(cluster_median, point) for point in clusters[i]] min_distance_index = np.argmin(median_distances) new_centroids.append(clusters[i][min_distance_index]) # 如果新旧质心相同,则停止迭代 if np.allclose(centroids, new_centroids): break centroids = np.array(new_centroids) return centroids, clusters # 测试代码 data_points = np.random.rand(50, 2) * 10 final_centroids, final_clusters = kmedians(data_points, k=3) print("Final Centroids:") for idx, centroid in enumerate(final_centroids): print(f"Cluster {idx}: {centroid}") ``` 该实现中定义了一个 `manhattan_distance` 函数用于计算两个点间的曼哈顿距离,并通过 `kmedians` 函数实现了完整的 K-medians 过程[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值