问题描述:
Tango是微软亚洲研究院的一个试验项目。研究院的员工和实习生们都很喜欢在Tango上面交流灌水。传说,Tango有一大“水王”,他不但喜欢发贴,还会回复其他ID发的每个帖子。坊间风闻该“水王”发帖数目超过了帖子总数的一半。如果你有一个当前论坛上所有帖子(包括回帖)的列表,其中帖子作者的ID也在表中,你能快速找出这个传说中的Tango水王吗?
分析与解法:
(1)最直接的方法,可以对所有ID排序。然后再扫描一遍排好序的ID列表,统计各个ID出现的次数,如果某个ID出现的次数超过总是的一半,那么就输出这个ID。这个算法的时间复杂度为O(N*log2N+N)。
(2)如果一个ID出现的次数超过总数N的一半,无论水王的ID是什么,这个有序的ID列表中的第N/2项(从0开始编号)一定会是这个ID。不必再次扫描列表。如果能够迅速定位到列表的某一项(比如用数组来存储列表),除去排序的时间复杂度,后处理需要的时间为O(1)。
(3)避免排序的方法:
如果每次删除两个不通过的ID(不管是否含有“水王”的ID),那么,在剩下的ID列表中,“水王”ID出现的次数仍然超过总数的一半。可以不断重复这个过程,把ID列表中的ID总数降低(转化为更小的问题),从而得到答案。新的思路,避免了排序这个耗时的步骤,总的时间复杂度只有O(N),且只需要常数的额外内存。
这个题目体现了计算机科学中很普遍的思想,就是如何把一个问题转化为规模较小的若干问题。分治、递推和贪心等都是这样的思路。在转化的过程中,小的问题跟原问题本质上一致。同样我们可以将小问题转化为更小的问题。因此,转化过程是很重要的。像上面这个题目,我们保证了问题的解在小问题仍然具有与原问题相同的性质:水王的ID在ID列表中的数量超过一半。转化的效率越高,转化之后问题规模缩小得越快,则整体的时间复杂度越低。
第一次看这段话,有点不好理解,以下是别人的解释(http://blog.youkuaiyun.com/rein07/article/details/6741661),有助于更好得理解这一方法:
采用题目已知的水王发帖数超过一半这个特殊情况处理本题。
考虑如下特殊情况:N个帖子,水王的帖子都在最前面,也就是:
1 2 3 4 5 ... N/2, N/2+1,... N 。假如在N/2+1之前都是水王的帖子。
如果从一开始假定第一个 ID就为水王并记录,然后对应的次数一直加到N/2+1,往后都不是水王的帖子了,遍历时把水王的帖子数逐个减下去,知道最后,水王的帖子依然大于0。
这是特殊情况,实际情况,水王的帖子应该是分布在所有帖子其中的。仔细分析后发现,按照上述做法,到最后帖子数大于0的肯定是水王的帖子。
总结下大致思想就是:假设每个ID都有可能是水王,那么在遍历时这个水王就要遇到一种挑战,可能自己的帖子数是会增加的,也可能是遇到挑战的,帖子数要减少的。这样遍历下来,只有水王的帖子增加的减去遇到挑战的帖子数会是大于0的。其他任何帖子假设为水王时都是禁不起挑战的。
类似的,2013腾讯的题目为:数组中有一个数字出现的次数超过了数组长度的一半,请找出这个数字。
思路:一个数字出现的次数超过了数组长度的一半,也就是说这个数字出现的个数一定大于其他全部数字出现的个数之和。那么我们的算法如下:(1)初始化:设当前的数组data[],数组长度为n。CurrentAxis = data[0],CurrentNum = 1;
(2)设i=1,遍历数组,转向(3)
(3)当data[i]==CurrentAxis时,CurrentNum++,转向(5);否则转向(4);
(4)CurrentNum--,当CurrentNum==0时,CurrentAxis = data[i];
(5)当i== n时,转向(6);否则,i++,转向(3)
(6)输出CurrentAxis。
代码见:int FindHalf(int data[],int length)
<span style="font-size:18px;">int FindHalf(int data[],int length)
{
int CurrentAxis,CurrentNum,i;
CurrentAxis = data[0];
CurrentNum = 1;
for(i=1;i<length;i++)
{
if(data[i]==CurrentAxis)
CurrentNum++;
else
{
CurrentNum--;
if(CurrentNum == 0)
{
CurrentAxis = data[i];
CurrentNum = 1;
}
}
}
return CurrentAxis;
}</span>
扩展问题
随着Tango的发展,管理员发现,“超级水王”没有了。统计结果表明,有3个发帖很多的ID,他们的发帖数目都超过了帖子总数目N的1/4。你能从发帖ID列表中快速找出他们的ID吗?
思路:
上题只需要一个结果,而现在需要3个结果,上题用到的nTimes,也应改为3个计数器。现在我们需要3个变量来记录当前遍历过的3个不同的ID,而nTimes的3个元素分别对应当前遍历过的3个ID出现的个数。如果遍历中有某个ID不同于这3个当前ID,我们就判断当前3个ID是否有某个的nTimes为0,如果有,那这个新遍历的ID就取而代之,并赋1为它的遍历数(即nTimes减1),如果当前3个ID的nTimes皆不为0,则3个ID的nTimes皆减去1。
代码:
void FindQuarter(int *Axis,int data[],int length)
{
int nNum[3]={0,0,0};
int flag;
for(int i=0;i<length;i++)
{
flag=0;
for(int j=0;j<3;j++)
{
if(Axis[j] == data[i])
{
nNum[j]++;
flag = 1;
break;
}
}
if(!flag)
{
int flag2=0;
for(int j=0;j<3;j++)
{
if(nNum[j]==0)
{
Axis[j] = data[i];
nNum[j] = 1;
flag2=1;
break;
}
}
if(!flag2)
{
for(int j=0;j<3;j++)
nNum[j]--;
}
}
}
}