中南大学计算机体系结构题库.doc
(33页)
本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦!
19.90 积分
目 录一、填空题1二、判断题56三、名词解释74四、简答题74五、计算题74五、计算题----------------------------------------------------------------------1、试题序号:5812、题型:计算题3、难度级别:44、知识点:一、计算机体系结构的基本概念5、分值:106、所需时间:15分钟7、试题关键字:解释执行8、试题内容:假设有一个计算机系统分为四级,每一级指令都比它下一级指令在功能上强M倍,即一条r+1级指令能够完成M条r指令的工作,且一条r+1级指令需要N条r级指令解释。对于一段在第一级执行时间为K的程序,在第二、第三、第四级上的一段等效程序需要执行多少时间?9、答案内容:解:假设在第一级上用时间K执行了该级IC条指令。1分对第二级而言,为了完成IC条指令的功能,第二级指令的条数为:。为了执行第二级条指令,需要执行条第一级的指令对其进行解释,所以对于第二级而言,等效程序的执行时间是: 2分对于第三级而言,为了完成IC条指令的功能,第三级指令的条数为:。为了执行第三级条指令,需要执行条第二级的指令对其进行解释。那么对第二级而言,总的指令条数为: 3分而第二级等效于第一级条指令,同时还需要条第一级指令进行解释,所以第三级等效程序的执行时间是: 3分按照同样的逐层递推关系,不难求得第四级等效程序的总的执行时间为: 1分10、评分细则:10分/小题,评分细则分布在答案内容中。----------------------------------------------------------------------1、试题序号:5822、题型:计算题3、难度级别:34、知识点:1.5 定量分析技术基础5、分值:106、所需时间:15分钟7、试题关键字:阿姆达尔定律8、试题内容:已知某商用计算机拟增加字符串操作功能。 若用软件实现,与无字符串操作相比,速度提高4倍, CPU成本提高1/5倍;若用硬件实现,则速度是原来的100倍,,CPU成本是原来的5倍。 由实验测得,字符串操作占总运行时间的50%, CPU成本约占整机成本的1/3。你选用哪种设计方案?9、答案内容:解:采用软件方法时根据阿姆达尔定律,性能提高:=1.66 2分硬件成本提高到C=2/3 + 1/3* (1+1/5)=1.07 1分价格性能比为:C/S = 1.07/1.66 = 0.64 1分采用硬件方法时: S=1/[(1-50%)+50%/100]=1.98 2分硬件成本提高到C=2/3 + 1/3* 5=2.33 1分价格性能比为:C/S = 2.33/1.98 = 1.18 1分如果仅考虑性能提高,则可选择硬件方法,而考虑性能提高和成本因素,则应选择软件方法。 2分10、评分细则:10分/小题,评分细则分布在答案内容中。----------------------------------------------------------------------1、试题序号:5832、题型:计算题3、难度级别:44、知识点:一、计算机体系结构的基本概念5、分值:106、所需时间:15分钟7、试题关键字:CPU性能公式8、试题内容:假设我们考虑条件分支指令的两种不同设计方法如下: (1) CPUA:通过比较指令设置条件码,然后测试条件码进行分支。 (2) CPUB:在分支指令中包括比较过程在两种CPU中,条件分支指令都占用2个时钟周期而所有其它指令占用1个时钟周期,对于CPUA,执行的指令中分支指令占20%;由于每个分支指令之前都需要有比较指令,因此比较指令也占20%。由于CPUA在分支时不需要比较,因此假设它的时钟周期时间比CPUB快1.25倍。哪一个CPU更快?如果CPUA的时钟周期时间仅仅比CPUB快1.1倍,哪一个CPU更快呢?9、答案内容:解:我们不考虑所有系统问题,所以可用CPU性能公式。占用2个时钟周期的分支指令占总指令的20%,剩下的指令占用1个时钟周期。所以 CPIA = 0.2 ´ 2 + 0.80 ´ 1 = 1.2 1分则CPU性能为: 总CPU时间A = IC ´ 1.2 ´ 时钟周期A 1分根据假设,有: 时钟周期B = 1.25 ´ 时钟周期A 1分在CPUB中没有独立的比较指令,所以CPUB的程序量为CPUA的80%,分支指令的比例为: 20%/80% = 25% 2分这些分支指令占用2个时钟周期,而剩下的75%的指令占用1个时钟周期,因此: CPIB = 0.25 ´ 2 + 0.75 ´ 1 = 1.25 1分因为CPUB不执行比较,故: ICB = 0.8 ´ ICA因此CPUB性能为: 总CPU时间B = ICB ´ CPIB ´ 时钟周期B = 0.8 ´ ICA ´ 1.25 ´ (1.25 ´ 时钟周期A) = 1.25 ´ ICA ´ 时钟周期A 2分在这些假设之下,尽管CPUB执行指令条数较少,CPUA因为有着更短的时钟周期,所以比CPUB快。如果CPUA的时钟周期时间仅仅比CPUB快1.1倍,则 时钟周期B = 1.10 ´ 时钟周期ACPUB的性能为: 总CPU时间B = ICB ´ CPIB ´ 时钟周期B = 0.8 ´ ICA ´ 1.25 ´ (1.10 ´ 时钟周期A) = 1.10 ´ ICA ´ 时钟周期A因此CPUB由于执行更少指令条数,比CPUA运行更快。 2分10、评分细则:10分/小题,评分细则分布在答案内容中。----------------------------------------------------------------------1、试题序号:5842、题型:计算题3、难度级别:24、知识点:一、计算机体系结构的基本概念5、分值:106、所需时间:15分钟7、试题关键字:CPU性能公式8、试题内容:对于一台400MHz计算机执行标准测试程序,程序中指令类型,执行数量和平均时钟周期数如下:指令类型指令执行数量平均时钟周期数整数450001数据传送750002浮点80004分支15002求该计算机的有效CPI、MIPS和程序执行时间。9、答案内容:解: 1分 3分 3分 程序执行时间=()/400=575s 3分10、评分细则:10分/小题,评分细则分布在答案内容中。-。省略部分。(8) 无I/O时,每100万个时钟周期中,有18000次失效;(9) 失效开销是40个时钟周期。如果替换块被修改过,则再加上30个周期用于写回主存;(10) 假设机器平均每200万周期处理1页。分析I/O对于性能的影响有多大?9、答案内容:解:每个主存页有32K/128=256块。因为是按块传输,所以I/O传输本身并不引起Cache失效。但是它可能要替换Cache中的有效块。如果这些被替换块中有60%是被修改过的,将需要(256×60%)×30=4608个时钟周期将这些被修改过的块写回主存。 3分这些被替换出去的块中,有95%的后继需要访问,从而产生95%×256=244次失效,将再次发生替换。由于这次被替换的244块中数据是从I/O直接写入Cache的,因此所有块都为被修改块,需要写回主存(因为CPU不会直接访问从I/O来的新页中的数据,所以它们不会立即从主存中调入Cache),需要时间是244×(40+30)=17080个时钟周期。3分没有I/O时,每一页平均使用200万个时钟周期,Cache失效36000次,其中60%被修改过,所需的处理时间为:(36000×40%)×40+(36000×60%)×(40+30)=(时钟周期)时钟I/O造成的额外性能损失比例为(4608+17080)÷(+)=0.53% 4分即大约产生0.53%的性能损失。10、评分细则:10分/小题,评分细则分布在答案内容中。----------------------------------------------------------------------1、试题序号:6182、题型:计算题3、难度级别:34、知识点:七、多处理机5、分值:106、所需时间:15分钟7、试题关键字:多处理机8、试题内容:32个处理器的计算机,对远程存储器访问时间为2000ns。除了通信以外,假设计算中的访问均命中局部存储器。当发出一个远程请求时,本处理器挂起。处理器时钟时间为10ns,如果指令基本的CPI为1.0(设所有访存均命中Cache),求在没有远程访问的状态下与有0.5%的指令需要远程访问的状态下,前者比后者快多少?9、答案内容:解:有0.5%远程访问的机器的实际CPI为 CPI=基本CPI+远程访问率×远程访问开销 =1.0+0.5%×远程访问开销3分远程访问开销=远程访问时间/时钟时间 =2000ns/10ns=200个时钟3分 ∴ CPI=1.0+0.5%×200=2.02分 它为只有局部访问的机器的2.0/1.0=2倍, 2分因此在没有远程访问状态下的机器速度是有0.5%远程访问机器速度的2倍。10、评分细则:10分/小题,评分细则分布在答案内容中。----------------------------------------------------------------------1、试题序号:6192、题型:计算题3、难度级别:34、知识点:七、多处理机5、分值:106、所需时间:15分钟7、试题关键字:多处理机8、试题内容:若令8*8矩阵A=(aij)以行为主存放在主存储器中,用什么样的单级互连网络可使A转换成转置矩阵AT?总共需要传送多少步?9、答案内容:解:这个8*8的矩阵如下: 3分 ...... ...... ...... ...... ...... ...... ...... 转换成转置矩阵后:如下 4分 ...... ...... ...... ...... ...... ...... ...... 就是把前三位与后三位对调位置而成.所以使用以下复合互连函数可以完成:Shuffle(Shuffle(Shuffle))就是进行三次全混洗就可把行与列的单元互换.因为总数有8*8=64个数,而在对角线上的八个数是不必调换的,所以总步数为3*(64-8)=168(步)。3分10、评分细则:10分/小题,评分细则分布在答案内容中。----------------------------------------------------------------------1、试题序号:6202、题型:计算题3、难度级别:54、知识点:七、多处理机5、分值:106、所需时间:15分钟7、试题关键字:多处理机8、试题内容:试确定在下列4种计算机系统中,计算下列表达式所需时间。其中,加法需用30ns,乘法需用50ns。在SIMD和MIMD计算机中,数据由一个PE(处理单元)传送到另一个PE需要10ns,而在SISD计算机中数据传送时间可忽略不计。在SIMD计算机中,PE间以线性圆环方式互连(以单向方式传送数据),而在MIMD计算机中,PE间以全互连方式连接。(1) 具有一个通用PE的SISD计算机系统;(2)具有一个加法器和一个乘法器的多功能部件的SISD计算机系统;(3)具有8个PE的SIMD计算机系统;具有8个PE的MIMD计算机系统。9、答案内容:解:(1)具有一个通用PE的SISD计算机系统:这是最花时间的一个系统,得做一次加法,做一次乘法,按顺序进行:其所用时间为:30*8+50*(8-1)=590(ns) 2分(2)具有一个加法器和一个乘法器的多功能部件的SISD 计算机系统:按题意,这可以是一个标量机, 其中的加法和乘法可以有部分重叠进行,其所用时间为:其并行时空图简示如下:加法12345678 乘法 1234567830+30+50*(8-1)=410(ns) 其中的两个30是指开始阶段,先要算出两个和的时间。 2分(3)具有8个PE的SIMD计算机系统:这是一个阵列机.,它可以先并行求和,再进行折叠递归求积,所需的时间为:30+60+50*3=240(ns)其中的30是指加法所用时间,一次即可完成,而另外的乘法只需向偶数的PE传送三次数据, 并进行三次乘法就可算出结果.传送时间是第一步是10,第二步是20,第三步是30(因为它是以单向方式传送数据,我理解为每次只能向上传递一个单元),乘法时间是50。 3分(4)具有8个PE的MIMD计算机系统.这是一个多处理机系统, 加法可以并行, 其所需时间为:30+(50+10)*3=210 3分10、评分细则:10分/小题,评分细则分布在答案内容中。----------------------------------------------------------------------
关 键 词:
体系 中南 大学 题库 结构 计算机
天天文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
关于本文
本文标题:中南大学计算机体系结构题库.doc
链接地址:
https://www.wenku365.com/p-55685875.html