
上图转自新浪微博:“阿里代码库有几亿行代码,但其中有很多功能重复的代码,比如单单快排就被重写了几百遍。请设计一个程序,能够将代码库中所有功能重复的代码找出。各位大佬有啥想法,我当时就懵了,然后就挂了。。。”
这里我们把问题简化一下:首先假设两个功能模块如果接受同样的输入,总是给出同样的输出,则它们就是功能重复的;其次我们把每个模块的输出都简化为一个整数(在 int 范围内)。于是我们可以设计一系列输入,检查所有功能模块的对应输出,从而查出功能重复的代码。你的任务就是设计并实现这个简化问题的解决方案。
输入格式
输入在第一行中给出 2 个正整数,依次为 N(≤10^4 )和 M(≤10 ^2 ),对应功能模块的个数和系列测试输入的个数。
随后 N 行,每行给出一个功能模块的 M 个对应输出,数字间以空格分隔。
输出格式:
首先在第一行输出不同功能的个数 K。随后 K 行,每行给出具有这个功能的模块的个数,以及这个功能的对应输出。数字间以 1 个空格分隔,行首尾不得有多余空格。输出首先按模块个数非递增顺序,如果有并列,则按输出序列的递增序给出。
注:所谓数列 { A 1 , …, A M} 比 { B 1 , …, B M } 大,是指存在 1≤i<M,使得 A 1 =B 1 ,…,A i
=B i 成立,且 A i+1>B i+1。
输入样例:
7 3
35 28 74
-1 -1 22
28 74 35
-1 -1 22
11 66 0
35 28 74
35 28 74
输出样例
4
3 35 28 74
2 -1 -1 22
1 11 66 0
1 28 74 35
题解
这道题目主要的要求就是对于序列进行去重排序,但是是先按照出现次数降序,再按照后面整个序列进行升序排序,所以我这里用到的是,用vector 存储,再用map去重,并将map中的两个元素加入set进行排序,当然这需要进行运算符重载,这样再配上不太慢的输入输出就可以得25分了,如下面代码所示。
#include<bits/stdc++.h>
using namespace std;
map<vector<int>,int>mp;
//typedef pair<int,vector<int> > pll;
#define pb push_back
struct node{
int sum;
vector<int> f;
bool operator()(const node &a,const node &b) const {
if(a.sum==b.sum){
return a.f<b.f;
}
else return a.sum>b.sum;
}
};
int n,k,num;
int main(){
//cin>>n>>k;
scanf("%d%d",&n,&k);
for(int i=1;i<=n;i++){
vector<int>ve;
for(int j=1;j<=k;j++){
//cin>>num;
scanf("%d",&num);
ve.push_back(num);
}
mp[ve]++;
}
//set<pll,greater<pll>> se;
set<node,node>se;
cout<<mp.size()<<endl;
for(auto x:mp){
se.insert({x.second,x.first});
}
for(auto x:se){
//cout<<x.sum<<" ";
printf("%d ",x.sum);
for(int j=0;j<x.f.size();j++){
if(j!=x.f.size()-1) printf("%d ",x.f[j]);
else printf("%d\n",x.f[j]);
}
}
}
该博客讨论了一种简化问题,旨在找出代码库中功能重复的代码。问题定义为,如果两个代码模块对相同输入产生相同输出,则认为功能重复。博主提出了一种解决方案,通过输入测试用例来检查各个模块的输出,然后使用映射和集合来去重和排序这些输出序列。代码示例中展示了如何利用C++实现这一过程。
1362

被折叠的 条评论
为什么被折叠?



