POJ 4093 倒排索引查询(STL set 的应用)

本文介绍了一种使用C++ STL中的SET数据结构实现文档倒排索引查询的方法。通过集合的交并差运算处理复杂的查询需求,如同时包含或排除某些关键词的文档检索。文章详细解释了算法流程,并提供了完整的实现代码。

这个主要就是一个集合的交-差问题.由于数据量比较大,考虑用 STL 里面的SET 来当数据结构,存储每个单词出现的文档编号.我的思路是,找到一个为 1 的单词的下标,把这个单词的文档编号输出到 res 中,然后遍历,遇到0,什么也不做;遇到-1,就判断res中是否有这些文档,如果有,就删除;遇到1,就取交集,这里可以用一个 temp set集合来存储公共元素.(或者直接用两个迭代器在两个SET里面遍历,由于是递增排列的,删除非公共元素很方便,这里不做讨论)


描述
现在已经对一些文档求出了倒排索引,对于一些词得出了这些词在哪些文档中出现的列表。

要求对于倒排索引实现一些简单的查询,即查询某些词同时出现,或者有些词出现有些词不出现的文档有哪些。

输入
第一行包含一个数N1 <= N <= 100,表示倒排索引表的数目。
接下来N行,每行第一个数ci,表示这个词出现在了多少个文档中。接下来跟着ci个数,表示出现在的文档编号,编号不一定有序。1 <= ci <= 1000,文档编号为32位整数。
接下来一行包含一个数M,1 <= M <= 100,表示查询的数目。
接下来M行每行N个数,每个数表示这个词要不要出现,1表示出现,-1表示不出现,0表示无所谓。数据保证每行至少出现一个1。

输出
共M行,每行对应一个查询。输出查询到的文档编号,按照编号升序输出。
如果查不到任何文档,输出"NOT FOUND"。

样例输入
3
3 1 2 3
1 2
1 3
3
1 1 1
1 -1 0
1 -1 -1

样例输出
NOT FOUND
1 3
1

#include <iostream>
#include <stdio.h>
#include <set>
using namespace std;

int n, num, t;
int query[110];
set<int> s[200];
set<int> res;
set<int>::iterator it;
set<int>::iterator it2;

int main()
{
    scanf("%d",&n);

    for(int i=1;i<=n;i++)
    {
        scanf("%d",&num);
        while(num--)
        {
            scanf("%d",&t);
            s[i].insert(t);//保存每个单词出现的文档
        }
    }

    scanf("%d",&num);
    while(num--)
    {
        int _index = 0, flag = 0;
        for(int i=1;i<=n;i++)
        {
            scanf("%d",&query[i]);

            if(query[i] == 1)
                _index = i;//找到这个单词的下标
        }
        //初始化 res
        for(it=s[_index].begin();it!=s[_index].end();it++)
            res.insert(*it);

        for(int i=1;i<=n;i++)
        {
            if(query[i] == 1)//取交集
            {
                set<int> temp;
                it = s[i].begin();
                for(;it!=s[i].end();it++)
                {
                    it2 = res.find(*it);
                    if(it2 != res.end())
                    {
                        temp.insert(*it);
                    }
                }

                if(temp.empty())
                {
                    flag = 1; break;//没有公共元素,不需要再做下去,直接中断循环
                }
                else
                {//更新 res
                    res.clear();
                    it = temp.begin();
                    while(it != temp.end())
                    {
                        res.insert(*it);
                        it++;
                    }
                }
            }
            else if(query[i] == -1)//删掉这些元素
            {
                it = s[i].begin();
                for(;it!=s[i].end();it++)
                {
                    it2 = res.find(*it);
                    if(it2 != res.end())
                        res.erase(*it);
                }

            }
        }

        if(flag==1 || res.empty())
            printf("NOT FOUND\n");
        else
        {
            for(it=res.begin();it!=res.end();it++)
                printf("%d ",*it);
            printf("\n");
        }

    }
    return 0;
}
### POJ 06640 倒排索引 解决方案 对于给定的倒排索引问题,输入描述表明程序需处理一系列文档及其关键词,并支持基于特定条件的查询操作。具体来说: - 输入的第一部分定义了多个倒排索引条目,每个条目由一个词项以及该词项所关联的一系列文档ID组成[^3]。 为了实现高效的查询响应,在构建倒排索引结构时可以考虑使用哈希表来存储各个词项对应的文档集合。这样可以在O(1)时间内完成对任意词项所在文档集的访问。针对每次查询请求,则通过遍历查询向量并与预先建立好的倒排索引来匹配符合条件的文档列表。 当接收到具体的查询指令后,算法会依据用户指定的要求筛选出满足所有正向选择(即标记为`1`)而排除负向选择(即标记为`-1`)的那些文档。如果存在不确定状态(即标记为`0`),则这些词项不会影响最终的结果判定。一旦确定了符合全部约束条件的文档集合之后,还需要对其进行排序以确保输出顺序正确无误;倘若没有任何文档能够完全吻合给出的标准,则返回预设的信息提示未找到相应记录。 ```cpp #include <iostream> #include <vector> #include <set> #include <unordered_map> using namespace std; int main() { int n, m; cin >> n; unordered_map<int, set<int>> invertedIndex; for (int i = 0; i < n; ++i){ int c; cin >> c; while(c--){ int docId; cin >> docId; invertedIndex[i].insert(docId); } } cin >> m; vector<vector<int>> queries(m,vector<int>(n)); for(int i=0;i<m;++i){ for(int j=0;j<n;++j){ cin>>queries[i][j]; } } for(const auto& query : queries){ bool found=false; set<int> result=allDocs(); for(size_t termIdx=0;termIdx<query.size();++termIdx){ switch(query[termIdx]){ case 1:{ if(result.empty()){ result=invertedIndex[termIdx]; }else{ set_intersection( begin(invertedIndex[termIdx]),end(invertedIndex[termIdx]), begin(result), end(result), inserter(result,result.begin()) ); } break; } case -1: result.erase(begin(invertedIndex[termIdx]),end(invertedIndex[termIdx])); break; default:; } if(!found && !result.empty()) found=true; } if(found){ for(auto it=result.begin();it!=result.end();++it){ cout<<*it<<" "; } cout<<"\n"; } else { cout << "NOT FOUND\n"; } } } ``` 此代码片段实现了上述逻辑流程,其中利用C++标准库中的容器类如`unordered_map`, `set`等辅助完成了高效的数据管理和运算过程。注意这里假设了一个名为`allDocs()`函数用于初始化结果集为全量文档的情况,实际应用中应根据具体情况调整这部分实现细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值