快速排序(三路划分)解决大量重复元素

本文介绍了一种快速排序算法的优化方案,通过引入插入排序处理小规模数组,提高整体排序效率。针对大量重复元素的情况,提出了一种改进的划分方法,并详细解释了其工作原理。

#include<iostream>
#include<cstdlib>
#include<ctime>
#define M 20

using namespace std;
static int count_insert = 0;
static int count_partion = 0;

typedef struct index
{
 	  int left;
 	  int right;
}index;

void swap(int& small, int& big)
{
	int temp = small;
	small = big;
	big = temp;
}
/*
|简述下插入排序:
|
|cur = 1 ->  right 为待排序部分,pre代表已排序部分。
|
|先把当先位置元素arr[cur]存入tmp,然后比较arr[pre]和arr[cur],
|如果待排序部分arr[cur] < arr[pre],则arr[pre + 1] = arr[pre]移位
|移位的目的是把较小的元素,这里是arr[cur]放入到已排序部分适当的位置
|这样每次arr[cur]都会被arr[pre]所覆盖,这也就是为什么刚开始tmp = arr[cur]的原因
|然后把tmp放置到arr[pre]位置处
*/
void insert_sort( int arr[], int left, int right)
{
	int tmp, cur , pre;
	for (cur = 1; cur < right; cur++)
	{
		pre = cur - 1;
		tmp = arr[cur];

		while ( tmp < arr[pre] && pre >= 0)
		{
			arr[pre + 1] = arr[pre];
			pre--;
		}
		arr[pre] = tmp;
	}
	count_insert += 1;
}
/*
|简述下算法思路:
|当出现大量重复元素时,显然可以加以控制,改进效率。
|
|在划分循环中,每当扫描指针(i, j)停止时,交换i,j处的元素;
|同时判断指针处元素是否等于划分元素base;
|如果arr[i]等于划分元素,则把arr[i]和数组左边的元素交换;
|如果arr[j]等于划分元素,则把arr[j]和数组右边的元素。
|
|最后把两端的和划分元素相等的区域,移到数组中间来。
*/
index partion(int arr[], int left, int right)
{
	int i , j;
	int pleft, pright;
	int tag, base;
	index p;
	
	if ( left > right ) exit(-1) ;
	
	i = left - 1, j = right;
 	pleft = left - 1, pright = right;
 	base = arr[right];
	//@_1 
	for (;;)
	{
	    while ( i < j && arr[ ++i ] < base );
	    	  
	    while ( i < j && arr[ --j ] > base ) if ( j <= left ) break;
  	  	  
  	  	if ( j == i ) break;
  	  	  
  	  	swap( arr[j] , arr[i]); // @_2

		if ( arr[i] == base )
  	  	 {
   	 		pleft += 1;
			swap(arr[i], arr[pleft]);   	 	  
         }
              
         if ( arr[j] == base )
         {
 	  		pright -= 1;
 	  	    swap( arr[j], arr[pright]);//@_3
		 }
	}//for
	 
	swap( arr[right], arr[i]); //@_4
	
	j = i - 1; i = i + 1;
	
	for (tag = left; tag <= pleft; tag++, j--) swap(arr[tag], arr[j]);
	
	for (tag = right - 1 ; tag >= pright; tag--, i++) swap(arr[tag], arr[i]);//@_5
	
	p.left = j, p.right = i ;

	count_partion += 1;
	
	return p;  
}

/*
| 如果划分后子文件的长度小于20,则用插入排序,
|否则快速排序。
|在经过N此递归划分后,会产生大量的比如长度为arr[0 -> 10]这样的小文件
|此时继续快速排序显然得不偿失。
*/
void quick_sort(int arr[], int left, int right)
{
	if ( left < right )
	{
		if ( (right - left) <= M )
			insert_sort(arr, left, right);
		else
		{
			index sec = partion(arr, left, right);
			quick_sort(arr, left, sec.left);
			quick_sort(arr, sec.right, right);
		}
	}
}

int main()
{
	
	const int size = 500;
	static int s[size];
	srand(unsigned int ( time(NULL)));
	for (int i = 0; i < size; i++)
		s[i] = rand()%100;

	quick_sort(s, 0, size-1);

	for (i = 0; i < size; i++)
		cout << s[i] << " ";
	cout << endl;
	cout << "call insert_sort  " << count_insert << " times" <<endl;
	cout << "call partion_sort  " << count_partion << " times" <<endl;

	cin.get();

	return 0;
}









































<think>嗯,用户想了解快速排序中的三路划分,我得先回忆一下相关的知识点。首先,快速排序本身是基于分治法的,传统的实现是选取一个基准元素,然后把数组分成两部分,一部分比基准小,另一部分比基准大。不过当数组中有很多重复元素时,这种两路划分的效率可能会下降,因为重复元素会被反复处理。 那三路划分应该就是解决这个问题的。对了,三路划分会把数组分成三个部分:小于基准、等于基准和大于基准的部分。这样的话,在递归处理时,只需要处理小于和大于的部分,等于基准的部分就不用再处理了,尤其是在有大量重复元素时,可以显著提高效率。 需要解释清楚三路划分的基本思想,可能还要对比传统的双路划分。然后,步骤分解应该包括如何选择基准,如何分区,以及递归处理。可能还需要提到具体实现时的指针移动,比如使用lt、gt和i这样的指针,或者类似的变量来控制分区过程。 还有,最好举一个例子,比如一个包含多个重复元素的数组,展示三路划分后的结果。这样用户能更直观地理解。另外,时间复杂度的分析也很重要,最好说明在重复元素多的情况下,三路划分如何将复杂度从O(n log n)优化到接近O(n),或者避免最坏情况的发生。 可能还需要提到三路划分的应用场景,比如处理包含大量重复元素的数据集时,或者作为快速排序的优化手段之一。同时,注意语言要通俗易懂,避免过于专业的术语,但又要准确。最后,总结一下它的优缺点,或者和双路划分的对比,帮助用户全面理解。</think>### 快速排序中的三路划分 #### 1. **基本思想** 快速排序的**三路划分**(Three-way Partitioning)是一种优化策略,用于处理数组中存在**大量重复元素**的情况。它将数组划分为三个区域: - **小于基准值**的部分(左段) - **等于基准值**的部分(中段) - **大于基准值**的部分(右段) 通过将重复元素集中到中间段,后续递归时**只需处理左右两段**,避免对重复元素重复操作,从而提升效率。 --- #### 2. **具体步骤** 假设数组为 $$arr$$,基准值为 $$pivot$$,三路划分流程如下: 1. **初始化指针**: - $$lt$$(左指针):指向第一个元素,表示左段的末尾 - $$gt$$(右指针):指向最后一个元素,表示右段的开头 - $$i$$(遍历指针):从数组头部开始扫描 2. **遍历与交换**: - 若 $$arr[i] < pivot$$:交换 $$arr[i]$$ 与 $$arr[lt]$$,并移动 $$i$$ 和 $$lt$$ - 若 $$arr[i] > pivot$$:交换 $$arr[i]$$ 与 $$arr[gt]$$,仅移动 $$gt$$ - 若 $$arr[i] = pivot$$:仅移动 $$i$$ 3. **终止条件**: - 当 $$i$$ 与 $$gt$$ 相遇时停止遍历 4. **递归处理**: - 对左段 $$arr[0..lt-1]$$ 和右段 $$arr[gt+1..n-1]$$ 递归执行上述步骤 --- #### 3. **示例演示** 假设数组为 $$[3, 1, 2, 3, 5, 3, 4]$$,基准值 $$pivot = 3$$: - **划分后**: - 左段:$$[1, 2]$$ - 中段:$$[3, 3, 3]$$ - 右段:$$[5, 4]$$ - 后续递归仅需处理左段和右段。 --- #### 4. **时间复杂度分析** - **最好情况**(大量重复元素):$$O(n)$$ - **平均情况**:$$O(n \log n)$$ - **最坏情况**:$$O(n^2)$$(但概率极低) 与传统双路划分相比,三路划分重复元素较多时**显著减少递归次数**。 --- #### 5. **代码框架(伪代码)** ```plaintext function quickSort3Way(arr, low, high): if low >= high: return pivot = arr[low] lt = low gt = high i = low while i <= gt: if arr[i] < pivot: swap(arr[i], arr[lt]) lt += 1 i += 1 elif arr[i] > pivot: swap(arr[i], arr[gt]) gt -= 1 else: i += 1 quickSort3Way(arr, low, lt - 1) quickSort3Way(arr, gt + 1, high) ``` --- #### 6. **适用场景** - 输入数据包含**大量重复元素** - 需要避免快速排序的最坏时间复杂度 - 例如:排序日志数据、用户评分等重复值较多的场景 --- #### 7. **总结** 三路划分通过将重复元素集中处理,优化了传统快速排序的性能瓶颈。其核心是通过**动态调整三个指针**($$lt$$、$$gt$$、$$i$$)将数组高效划分为三段,特别适合处理实际场景中的非均匀分布数据。
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值