NOIP2010tgD1T1 机器翻译 解题报告

本文解析了2010年NOIP机器翻译问题,该问题涉及利用有限内存进行英文单词的中文翻译过程。通过模拟算法实现了翻译过程中对外存词典的查找次数计算。

2010NOIPtgD1T1 机器翻译 题目如下

题目背景
小晨的电脑上安装了一个机器翻译软件,他经常用这个软件来翻译英语文章。
题目描述
这个翻译软件的原理很简单,它只是从头到尾,依次将每个英文单词用对应的中文含义来替换。对于每个英文单词,软件会先在内存中查找这个单词的中文含义,如果内存中有,软件就会用它进行翻译;如果内存中没有,软件就会在外存中的词典内查找,查出单词的中文含义然后翻译,并将这个单词和译义放入内存,以备后续的查找和翻译。
假设内存中有M个单元,每单元能存放一个单词和译义。每当软件将一个新单词存入内存前,如果当前内存中已存入的单词数不超过M-1,软件会将新单词存入一个未使用的内存单元;若内存中已存入M个单词,软件会清空最早进入内存的那个单词,腾出单元来,存放新单词。
假设一篇英语文章的长度为N个单词。给定这篇待译文章,翻译软件需要去外存查找多少次词典?假设在翻译开始前,内存中没有任何单词。
输入输出格式
输入格式
输入文件共2行。每行中两个数之间用一个空格隔开。
第一行为两个正整数M和N,代表内存容量和文章的长度。
第二行为N个非负整数,按照文章的顺序,每个数(大小不超过1000)代表一个英文单词。文章中两个单词是同一个单词,当且仅当它们对应的非负整数相同。
输出格式
包含一个整数,为软件需要查词典的次数。
输入输出样例
输入样例
3 7
1 2 1 5 4 4 1
输出样例
5
说明
每个测试点1s对于10%的数据有M=1,N≤5。
对于100%的数据有0<=M<=100,0<=N<=1000。
整个查字典过程如下:每行表示一个单词的翻译,冒号前为本次翻译后的内存状况:
空:内存初始状态为空。
- 查找单词1并调入内存。
1 2:查找单词2并调入内存。
1 2:在内存中找到单词1。
1 2 5:查找单词5并调入内存。
2 5 4:查找单词4并调入内存替代单词1。
2 5 4:在内存中找到单词4。
5 4 1:查找单词1并调入内存替代单词2。
共计查了5次词典。

看了题目之后,第一反应:这不是个队列么?
后来想了想,在队列里找东西不方便,还是数组模拟吧,简单快捷。

根据题目给的数据n<=100,m<=1000,这道题不需要太精妙的算法,就连Θ(N2)的算法都能过???w(゚Д゚)w
所以用数组更方便提取信息,这里还用了一个布尔数组来存储是否在字典里,更精细的地方在代码里一一叙述;

btw,数组记得置-1!

#include<iostream>      //cin,cout必须调用iostream库
#include<cstring>       //memset必须调用cstring库
using namespace std;
int a[101];
bool book[1001];
int main()
{
    memset(a,-1,sizeof(a));//注意,这里只是置了一个绝对值很大的负数,并不是-1
    memset(book,false,sizeof(book));
    int n,m,sum=0,t,b;//n是内存,m是单词个数,t相当于一个标记指针,sum是查单词的次数
    cin>>n>>m;
    t=1;//t的作用是指现在替换的是第几位的单词
    for(int i=1;i<=m;i++)
    {
        cin>>b;
        if(book[b]==false)//若b不在词典里
        {
            sum++;//需要查的次数++
            book[a[t]]=false;//将被覆盖的置false,这里注意,a[t]可能为负,有的编译器会报错,这里偷个懒(/▽\)
            book[b]=true;//b已经在词典里了
            a[t]=b;
            if(t==n)//词典又一次移到最右,再从左边开始
                t-=n;
            t++;
        }
    }
    cout<<sum<<endl;
    return 0;
}

题目中这个非负整数的条件真的是坑(;´д`)ゞ出现0的时候如果置0,刚置好的true又会被改掉。。

<think>题目:[NOIP2010 提高组 T1] 机器翻译 问题描述:小晨的电脑上安装了一个机器翻译软件,他经常用这个软件来翻译英语文章。这个翻译软件的原理很简单,它只是从头到尾,依次将每个英文单词用对应的中文含义来替换。对于每个英文单词,软件会先在内存中查找这个单词的中文含义,如果内存中有,软件就会用它进行翻译;如果内存中没有,软件就会在外存中的词典内查找,查出单词的中文含义然后翻译,并将这个单词和译义放入内存,以备后续的查找和翻译。假设内存中有M个单元,每单元能存放一个单词和译义。当软件将一个新单词存入内存前,如果当前内存中已存入的单词数不超过M-1,软件会将新单词存入一个未使用的内存单元;若内存中已存入M个单词,软件会清空最早进入内存的那个单词,腾出单元来,存放新单词。 假设一篇英语文章的长度为N个单词。给定这篇待译文章,翻译软件需要去外存查找多少次词典?假设在翻译开始前,内存中没有任何单词。 输入格式: 共2行。每行中两个数之间用一个空格隔开。 第一行为两个正整数M和N,代表内存容量和文章的长度。 第二行为N个非负整数,按照文章的顺序,每个数(大小不超过1000)代表一个英文单词。文章中两个单词是同一个单词,当且仅当它们对应的非负整数相同。 输出格式: 一个整数,为软件需要查词典的次数。 示例输入: 3 7 1 2 1 5 4 4 1 示例输出: 5 解题思路: 我们需要模拟翻译软件的工作过程。内存可以看作一个队列,当内存满的时候,需要将最早进入内存的单词(队头)移除,然后将新单词加入队尾。但是,在加入新单词之前,需要检查这个单词是否已经在内存中(即队列中)。如果已经在内存中,则不需要查词典;如果不在,则需要查词典,并且将该单词加入内存(如果内存已满,则先移除队头)。 注意:题目要求输出的是需要查词典的次数。 算法步骤: 1. 初始化一个队列(或列表)来模拟内存,一个集合(或列表)来快速检查单词是否在内存中(由于数字范围不大,我们可以直接使用列表或集合,但为了查找效率,使用集合更好,但注意队列中顺序不能乱,所以我们需要同时维护一个队列和一个集合?或者我们可以只用一个队列,然后每次查找时遍历队列?由于M最大100,N最大1000,所以即使遍历也是可以接受的。但为了效率,我们可以同时维护一个集合,但要注意同步更新。 2. 由于M和N都不大,我们可以使用一个队列(用列表模拟队列)和一个集合(set)来存储当前内存中的单词。这样,查找是否在内存中只需要O(1)的时间。 3. 具体过程: - 初始化查词典次数count=0,队列queue和集合mem_set。 - 遍历文章中的每个单词: 如果当前单词不在mem_set中,则: 需要查词典(count++) 如果当前队列长度等于M(内存已满),则: 从队列中弹出队首元素(popleft),同时从mem_set中移除该元素。 将当前单词加入队列(append),并加入mem_set。 否则,如果在mem_set中,则不需要查词典,也不需要对内存做任何操作(因为已经在内存中,而且不需要更新它在内存中的位置?注意:题目没有要求更新位置(如LRU),只是如果内存中有就直接用,没有才去查,而且查了之后是放在内存的末尾(如果内存满了则替换最早进入的)。但是,这里有一个细节:如果单词已经在内存中,我们不需要把它重新放到队尾(即不更新它在内存中的位置),因为题目没有说更新位置(不是LRU,而是FIFO)。所以,我们只需要记录单词是否在内存中,而不需要调整位置。 4. 输出count。 注意:同一个单词可能在后面再次出现,而且可能已经不在内存中了(因为被移除了),所以每次都需要判断。 由于我们使用集合来快速判断,所以效率较高。 代码实现(Python):</think>### 解决方案:模拟翻译软件的内存管理过程 #### 方法思路 使用队列(先进先出)模拟内存单元,并用集合辅助快速查找单词是否存在。遍历每个单词: 1. 若单词在内存中,直接跳过 2. 若不在内存中: - 查词典次数+1 - 若内存已满,移除最早进入的单词 - 将新单词加入内存 #### 代码实现 ```python from collections import deque def main(): M, N = map(int, input().split()) words = list(map(int, input().split())) memory = deque() # 用队列存储内存中的单词(维护顺序) mem_set = set() # 用集合快速判断单词是否存在 count = 0 # 查词典次数 for word in words: if word not in mem_set: count += 1 if len(memory) == M: # 内存已满 removed_word = memory.popleft() mem_set.remove(removed_word) memory.append(word) mem_set.add(word) print(count) if __name__ == "__main__": main() ``` #### 代码解释 1. **数据结构选择**: - `deque`:模拟内存的先进先出特性,高效实现队首移除和队尾插入 - `set`:提供O(1)时间复杂度的存在性检查 2. **核心流程**: - 读取内存容量`M`和文章长度`N` - 遍历每个单词: - 不在内存时:计数器+1,内存满则移除队首单词,新单词入队 - 输出总查词典次数 3. **示例分析**(输入:`3 7 [1,2,1,5,4,4,1]`): | 单词 | 内存变化 | 查词典 | 说明 | |------|--------------------|--------|--------------------------| | 1 | [1] | ✓ | 首次出现 | | 2 | [1,2] | ✓ | 加入新词 | | 1 | [1,2] | ✗ | 已存在 | | 5 | [1,2,5] | ✓ | 加入新词 | | 4 | [2,5,4] | ✓ | 移除1(最早),加入4 | | 4 | [2,5,4] | ✗ | 已存在 | | 1 | [5,4,1] | ✓ | 移除2(最早),加入1 | **总计查词典次数:5** #### 复杂度分析 - **时间复杂度**:O(N),每个单词处理时间O(1) - **空间复杂度**:O(M),内存最多存储M个单词 --- ### 相关问题讨论
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值