集合相似度

  • 给定两个整数集合,它们的相似度定义为:N​c​​/N​t​​×100%。其中N​c​​是两个集合都有的不相等整数的个数,N​t​​是两个集合一共有的不相等整数的个数。你的任务就是计算任意一对给定集合的相似度。
    输入格式:
    输入第一行给出一个正整数N(≤50),是集合的个数。随后N行,每行对应一个集合。每个集合首先给出一个正整数M(≤10​4​​),是集合中元素的个数;然后跟M个[0,10​9​​]区间内的整数。
    之后一行给出一个正整数K(≤2000),随后K行,每行对应一对需要计算相似度的集合的编号(集合从1到N编号)。数字间以空格分隔。
    输出格式: 对每一对需要计算的集合,在一行中输出它们的相似度,为保留小数点后2位的百分比数字。 输入样例: 3 3 99 87 101 4
    87 101 5 87 7 99 101 18 5 135 18 99 2 1 2 1 3 输出样例:
    50.00%
    33.33%
    分析题意可以发现:1.先将每个集合都排好序,并且集合中删去相同的数;
    2.Nc=两个集合中都包含的数的个数;
    3.Nt=两集合个数之和-Nc;
    、、、本来用了C语言发现提交超时,又改了java,还是麻烦,最后还是走了C++;
    用C++原因:C++中包含set(set类型是一种排好序的数组,存进去的元素可以自动排序,且每个元素出现有且仅有一次.),而且还有一个set_intersection(),也是set集合中的一个函数,他是用来取两个集合的交集。

    #include<stdio.h>
    #include
    #include<string.h>
    #include
    using namespace std;
    const int N = 51;
    int main(){
    int n, m,i,j,k,z;
    scanf("%d", &n);
    sets[N];
    for (i =1; i <=n; i++){
    scanf("%d",&m);
    for (j = 0; j<m; j++){
    scanf("%d",&z);
    s[i].insert(z);
    }
    }
    scanf("%d", &z);
    while (z–){
    int x, y,nc,nt;
    scanf("%d %d",&j,&k);
    setst;
    set_intersection(s[j].begin(), s[j].end(), s[k].begin(), s[k].end(), inserter(st, st.begin()));
    //第一个集合的头和尾
    // 第二个集合的头和尾
    //最后一个参数,一般情况为inserter(C1, C1.begin()). 取第一个集合和第二个集合的交集 //存于集合C1中
    nc = st.size(); //交集中相等的数的个数
    nt = s[j].size() + s[k].size() - st.size();//两个集合一共有的不相等整数的个数
    printf("%.2f%%\n",100.0*nc / nt);
    }
    return 0;
    }

### 计算集合相似度的算法实现 #### 背景说明 为了计算两个集合之间的相似度,通常采用一种基于交集与并集的比例方法。具体而言,通过统计两集合中共有元素的数量 \( N_c \),以及两集合总的不同元素数量 \( N_t \),可以得出其相似度比例。 相似度公式如下: \[ \text{Similarity} = \frac{N_c}{N_t} \times 100\% \] 其中, - \( N_c \) 表示两集合共有不同整数的个数; - \( N_t \) 表示两集合一共含有的不同整数的个数。 此公式的理论基础已在站内引用中提及[^1]。 --- #### Python 实现代码 以下是使用 Python 编写的集合相似度计算函数: ```python def calculate_similarity(set_a, set_b): # 将输入列表转换为集合以去除重复项 unique_set_a = set(set_a) unique_set_b = set(set_b) # 计算交集和并集 intersection_count = len(unique_set_a.intersection(unique_set_b)) # 共同元素个数 Nc union_count = len(unique_set_a.union(unique_set_b)) # 总共不同元素个数 Nt # 如果并集为空,则返回 0%,防止除零错误 if union_count == 0: return 0.0 # 计算相似度百分比 similarity_percentage = (intersection_count / union_count) * 100 return round(similarity_percentage, 2) # 返回保留两位小数的结果 # 测试用例 set_a = [1, 2, 3, 4, 5] set_b = [3, 4, 5, 6, 7] similarity_result = calculate_similarity(set_a, set_b) print(f"The similarity between the two sets is {similarity_result}%.") ``` 上述代码实现了以下功能: 1. **去重处理**:将输入的列表转化为集合,自动移除重复元素。 2. **交集与并集运算**:利用 `set` 的内置方法 `.intersection()` 和 `.union()` 来分别获取共同元素和全部唯一元素。 3. **异常处理**:当两集合均为空时,避免因分母为零而导致程序崩溃。 4. **结果精度控制**:最终结果四舍五入至两位小数。 --- #### Java 实现代码 如果需要在 Java 中实现该逻辑,可参考以下代码片段: ```java import java.util.HashSet; import java.util.Set; public class SetSimilarity { public static double calculateSimilarity(int[] arrayA, int[] arrayB) { // 创建 HashSet 并填充数据 Set<Integer> setA = new HashSet<>(); for (int num : arrayA) { setA.add(num); } Set<Integer> setB = new HashSet<>(); for (int num : arrayB) { setB.add(num); } // 获取交集和并集 Set<Integer> intersection = new HashSet<>(setA); intersection.retainAll(setB); // 只保留两者都存在的元素 Set<Integer> union = new HashSet<>(setA); union.addAll(setB); // 合并两者的所有元素 // 防止除零错误 if (union.size() == 0) { return 0.0; } // 计算相似度 return ((double) intersection.size() / union.size()) * 100; } public static void main(String[] args) { int[] setA = {1, 2, 3, 4, 5}; int[] setB = {3, 4, 5, 6, 7}; double result = calculateSimilarity(setA, setB); System.out.printf("The similarity between the two sets is %.2f%%.\n", result); } } ``` Java 版本同样遵循了相同的逻辑框架,并提供了更详细的注释以便于理解。 --- #### 注意事项 1. 输入的数据应先经过预处理,确保不会包含非法字符或其他非数值类型的干扰因素。 2. 当集合完全一致时,\( N_c = N_t \),此时相似度为 100%;而当无任何公共元素时,相似度则降为 0%。 3. 对于大规模数据集,需考虑性能优化策略,例如减少不必要的内存占用或提高哈希表查找效率。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值