Median in Stream

最新推荐文章于 2024-10-27 15:23:36 发布

原创最新推荐文章于 2024-10-27 15:23:36 发布 · 268 阅读

CC 4.0 BY-SA版权

本文介绍了一种实时处理数据流并获取中位数的算法，通过使用最大堆和最小堆来动态维护中位数。适用于实时数据分析场景。

Question: How to get the median from a stream of numbers at any time? The median is middle value of numbers. If the count of numbers is even, the median is defined as the average value of the two numbers in middle.

/* minggr@gmail.com */

#include <stdio.h>

enum {
	MAX_HEAP,
	MIN_HEAP,
};

void heapify(int heap[], int type, int heap_len, int i)
{
	int left = 2*i + 1;
	int right = 2*i + 2;
	int new_i = i;

	if (left < heap_len) {
		if (type == MAX_HEAP && heap[left] > heap[new_i])
			new_i = left;
		if (type == MIN_HEAP && heap[left] < heap[new_i])
			new_i = left;
	}

	if (right < heap_len) {
		if (type == MAX_HEAP && heap[right] > heap[new_i])
			new_i = right;
		if (type == MIN_HEAP && heap[right] < heap[new_i])
			new_i = right;
	}

	if (new_i != i) {
		int tmp = heap[new_i];
		heap[new_i] = heap[i];
		heap[i] = tmp;

		heapify(heap, type, heap_len, new_i);
	}
}

void build_heap(int data[], int type, int n)
{
	int i = n/2 - 1;

	while (i >= 0) {
		heapify(data, type, n, i);
		i--;
	}
}

int heap_insert(int heap[], int type, int heap_len, int key)
{
	int parent;
	int i;

	heap[heap_len++] = key;	

	i = heap_len-1;
	parent = (i-1)/2;
	while (i > 0) {
		if ((type == MAX_HEAP && heap[parent] < heap[i]) ||
		    (type == MIN_HEAP && heap[parent] > heap[i])) {
	
			int tmp = heap[parent];
			heap[parent] = heap[i];
			heap[i] = tmp;

			i = parent;
			parent = (i-1)/2;
		} else
			break;
	}

	return heap_len;
}

int heap_delete(int heap[], int type, int heap_len)
{
	heap[0] = heap[--heap_len];
	heapify(heap, type, heap_len, 0);

	return heap_len;
}

void dump_data(int data[], int n)
{
	int i;

	for (i = 0; i < n; i++)
		printf("%d ", data[i]);
	printf("\n");
}

int main()
{
	int max_heap[10];
	int min_heap[10];
	int data[] = {5, 8, 9, 3, 10, 4, 6, 1, 5, 7, 16};
	int n = 11;
	int i;
	int tmp;

	max_heap[0] = data[0];
	for (i = 1; i < n; i++) {
		if (i%2) { /* MIN heap */
			if (data[i] < max_heap[0]) {
				heap_insert(min_heap, MIN_HEAP, i/2, max_heap[0]);
				max_heap[0] = data[i];
				heapify(max_heap, MAX_HEAP, i/2+1, 0);
			} else
				heap_insert(min_heap, MIN_HEAP, i/2, data[i]);
		}
		else { /* MAX heap */
			if (data[i] > min_heap[0]) {
				heap_insert(max_heap, MAX_HEAP, i/2, min_heap[0]);
				min_heap[0] = data[i];
				heapify(min_heap, MIN_HEAP, i/2, 0);
			} else
				heap_insert(max_heap, MAX_HEAP, i/2, data[i]);
		}
	}
	dump_data(data, n);
	dump_data(max_heap, n/2+n%2);
	dump_data(min_heap, n/2);

	if (n%2)
		printf("median: %d\n", max_heap[0]);
	else
		printf("median: %d\n", max_heap[0]+min_heap[0]);

	return 0;
}