程序员面试金典 17.26

本文探讨了计算多个整数集合间稀疏相似度的方法,包括直接比较、使用倒排索引优化及元素排序策略,旨在减少时间复杂度,解决大规模数据集上的精度问题。

Sparse Similarity:给定一些整数集合,计算集合之间的稀疏相似度。稀疏相似度定义为交集大小和并集大小的比值。

假设有s个集合,每个集合中有n个整数。最简单的方式就是对于每一对集合,查找第一个集合中有多少元素在第二个集合中,这样就算出了交集的大小,最后根据容斥原理计算并集的大小即可。这种方法的时间复杂度为O(s ^ 2 * n ^ 2);如果查找过程用set,那么复杂度降为O(s ^ 2 * nlogn);如果查找过程用unordered_set,那么复杂度降为O(s ^ 2 * n)。根据题干sn的输入规模都会达到5003次方的算法应该是会超时的。

先用这种方法交了一下,然后就出现了评论区中说的四舍五入导致的精度问题,所以要在比值的的最后加上一个epsilon😦😦😦

再来降低一下复杂度,也就是优化一下O(s ^ 2)的部分。如果不想两两全部比较,那就争取只处理相似度不为0的集合对,假设有p个,最坏情况下每一对都有n个整数,则这一部分的时间复杂度为O(pn)。如果要使用这种方法,就要求我们提前能够用某种数据结构表示出相似的部分,亦即对于一个给定的整数x,有哪些集合包含x,这也就是倒排索引,整体的时间复杂度为O(sn + pn)

这道题很难和正确结果进行比较,也不知道预期输出是怎么个算法得来的,最好是找个工具排个序最后再文本比较下。

class Solution {
private:
    unordered_map<int, vector<size_t>> InvertedIndex;
    void createInvertedIndex(const vector<vector<int>> &docs)
    {
        for(size_t i = 0; i < docs.size(); i++)
        {
            const vector<int> &doc = docs[i];
            for(int n : doc)
            {
                InvertedIndex[n].push_back(i);
            }
        }
    }
    map<pair<size_t, size_t>, int> Pair2InterSize;
    void computeIntersectionSize()
    {
        for(auto iter = InvertedIndex.begin(); iter != InvertedIndex.end(); iter++)
        {
            const vector<size_t> &DocList = iter->second;
            if(DocList.size() == 1) continue;
            for(size_t i = 0; i < DocList.size(); i++)
            {
                for(size_t j = i + 1; j < DocList.size(); j++)
                {
                    Pair2InterSize[make_pair(DocList[i], DocList[j])]++;
                }
            }
        }
    }
    vector<string> ans;
    void adjustToSimilarities(const vector<vector<int>> &docs)
    {
        for(auto iter = Pair2InterSize.begin(); iter != Pair2InterSize.end(); iter++)
        {
            size_t IntersectionSize = iter->second;
            size_t UnionSize = docs[iter->first.first].size() + docs[iter->first.second].size() - IntersectionSize;
            ostringstream oss;
            oss << iter->first.first << ',' << iter->first.second << ": ";
            oss << fixed << setprecision(4) << static_cast<double>(IntersectionSize) / static_cast<double>(UnionSize) + 1e-9;
            ans.push_back(oss.str());
        }
    }
public:
    vector<string> computeSimilarities(vector<vector<int>>& docs) {
        createInvertedIndex(docs);
        computeIntersectionSize();
        adjustToSimilarities(docs);
        return ans;
    }
};

书上还给出了另外一种方法,将所有的元素排序,这样相同的元素就会聚到一起,之后的处理方法就和上面的相同了,时间复杂度为O(sn * logsn + pn),和上面不用unordered_map的情况一样,但是运行时间没多大区别。

class Solution {
private:
    struct Element
    {
        int ele;
        size_t DocID;
        Element(int n, size_t ID) : ele(n), DocID(ID){}
        bool operator<(const Element &rhs)
        {
            if(ele < rhs.ele) return true;
            else if(ele == rhs.ele) return DocID < rhs.DocID;
            else return false;
        }
    };
    vector<Element> Sorted;
    void sortDocs(const vector<vector<int>> &docs)
    {
        for(size_t i = 0; i < docs.size(); i++)
        {
            const vector<int> &doc = docs[i];
            for(int n : doc)
            {
                Sorted.push_back(Element(n, i));
            }
        }
        sort(Sorted.begin(), Sorted.end());
    }
    map<pair<size_t, size_t>, int> Pair2InterSize;
    void computeIntersectionSize()
    {
        for(size_t i = 0; i < Sorted.size(); i++)
        {
            size_t j = i + 1;
            while(j < Sorted.size() && Sorted[j].ele == Sorted[i].ele){
                Pair2InterSize[make_pair(Sorted[i].DocID, Sorted[j].DocID)]++;
                j++;
            }
        }
    }
    vector<string> ans;
    void adjustToSimilarities(const vector<vector<int>> &docs)
    {
        for(auto iter = Pair2InterSize.begin(); iter != Pair2InterSize.end(); iter++)
        {
            size_t IntersectionSize = iter->second;
            size_t UnionSize = docs[iter->first.first].size() + docs[iter->first.second].size() - IntersectionSize;
            ostringstream oss;
            oss << iter->first.first << ',' << iter->first.second << ": ";
            oss << fixed << setprecision(4) << static_cast<double>(IntersectionSize) / static_cast<double>(UnionSize) + 1e-9;
            ans.push_back(oss.str());
        }
    }
public:
    vector<string> computeSimilarities(vector<vector<int>>& docs) {
        sortDocs(docs);
        computeIntersectionSize();
        adjustToSimilarities(docs);
        return ans;
    }
};
物联网通信协议测试是保障各类设备间实现可靠数据交互的核心环节。在众多适用于物联网的通信协议中,MQTT(消息队列遥测传输)以其设计简洁与低能耗的优势,获得了广泛应用。为确保MQTT客户端与服务端的实现严格遵循既定标准,并具备良好的互操作性,实施系统化的测试验证至关重要。 为此,采用TTCN-3(树表结合表示法第3版)这一国际标准化测试语言构建的自动化测试框架被引入。该语言擅长表达复杂的测试逻辑与数据结构,同时保持了代码的清晰度与可维护性。基于此框架开发的MQTT协议一致性验证套件,旨在自动化地检验MQTT实现是否完全符合协议规范,并验证其与Eclipse基会及欧洲电信标准化协会(ETSI)所发布的相关标准的兼容性。这两个组织在物联网通信领域具有广泛影响力,其标准常被视为行业重要参考。 MQTT协议本身存在多个迭代版本,例如3.1、3.1.1以及功能更为丰富的5.0版。一套完备的测试工具必须能够覆盖对这些不同版本的验证,以确保基于各版本开发的设备与应用均能满足一致的质量与可靠性要求,这对于物联网生态的长期稳定运行具有基础性意义。 本资源包内包含核心测试框架文件、一份概述性介绍文档以及一份附加资源文档。这些材料共同提供了关于测试套件功能、应用方法及可能包含的扩展工具或示例的详细信息,旨在协助用户快速理解并部署该测试解决方案。 综上所述,一个基于TTCN-3的高效自动化测试框架,为执行全面、标准的MQTT协议一致性验证提供了理想的技术路径。通过此类专业测试套件,开发人员能够有效确保其MQTT实现的规范符合性与系统兼容性,从而为构建稳定、安全的物联网通信环境奠定坚实基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值