流水账(CPU设计实战)——lab7

本文详细介绍了CPU设计中的Lab7,涵盖了版本控制、Top顶层接口信号、五级流水线结构以及IF、ID、EXE、MEM、WB各阶段的接口和时序设计。特别讨论了数据通路设计,包括LWX指令处理、存储格式和LWL/LWR指令的实现,以及在设计中遇到的错误和解决方案,如 lw、sb、lwl、lwr、srav、bgez 等指令的处理和调试过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Lab7 V4.0

版本控制

版本描述
V0Lab3
V1.0Lab3 相对V0变化: 修改了文件名,各阶段以_stage结尾(因为if是关键词,所以module名不能叫if,遂改为if_stage,为了统一命名,将所有module后缀加上_stage) 删除了imm_sign信号(默认对立即数进行有符号数扩展) 由于对sw指令进行了重新理解:无论如何都是需要将rt_data传递给EXE阶段,故将部分译码逻辑进行后移至EXE阶段,避免id_to_exe_data总线过于庞大 将ins_shmat剔除出id_to_exe_data,因为imm包括ins_shamt 对信号进行重命名(例如在ID阶段有个信号叫rf_we,最终要传递给WB阶段,那么在EXE阶段,该信号叫作exe_rf_we,同理mem_rf_we,wb_rf_we),不然都叫rf_we,Debug的时候太痛苦了。
V2.0Lab4 相对V1.0的变化 引入`ifdef-`else-`endif来实现相对V1.0的代码增量 增加了旁路控制,减少流水线阻塞(因为增加了旁路,所以修改了ID、EXE、MEM的接口) 修改了ready_go命令,用于控制流水线的阻塞
V3.0Lab6(加载的是func_lab6的.coe文件,而不是func_lab5的,因为没有func_lab5这个东西) 相对V2.0的变化:电路细节变化详见:“CPU设计实战电路图”,图中Lab6的变化均以红色背景的方框框起来,并以黄色背景的“Lab6复用/新增信号”标注。本lab6.docx中,新增及修改的信号以红色标注。 删掉了ALU.v的接口,将alu_shamt合并至data_1,方便对新加指令sllv、srlv、srav的数据通路的复用 增加了ID.v中的alu_add的“或门”的输入 扩充了id_to_exe_data总线数据, 因为alu_op扩充了新的指令 添加了imm_zero_ext信号 修改了ins_R、ins_J、ins_I,因为增加了新的指令 乘法器和除法器调用vivado的IP,其周期参数化可配置设计 乘法和除法结果存放的寄存器HI/LO放在WB.v中 增加了sfr.v,用于特殊寄存器的存储 增加了mul_div.v,用于处理乘法和除法。增加了mul.v用于处理乘法,增加了divu.v用于处理无符号除法,增加了divs.v用于处理有符号除法 修改了id_to_exe_data,添加了新信号:imm_zero_ext_en 修改了id_to_exe_data,扩充了alu_op的位宽,并将alu_op调整至id_to_exe_data的最高位,方便未来扩充指令
V4.0Lab7 修改了alu_op的位宽 新增了两个bus:lw_bus、sw_bus,同时将mem_rd整合至lw_bus,将mem_we整合至sw_bus 扩大了id_to_exe_data lw_bus传递至MEM阶段结束,sw_bus传递至EXE阶段结束 修改了旁路,之前都是lw的旁路,这里将其扩充了lb、lbu、lh、lhu、lwl、lwr

Top顶层

接口信号

MYCPU_TOP.v(TOP

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
取指端访存接口
inst_sram_en1O指令RAM使能信号,高电平有效
inst_sram_wen4O指令RAM字节写使能信号,高电平有效
inst_sram_addr32O指令RMA读写地址,字节寻址
inst_sram_wdata32O指令RAM写数据
inst_sram_rdata32I指令RAM读数据
数据端访存接口
data_sram_en1O数据RAM使能信号,高电平有效
data_sram_wen4O数据RAM字节写使能信号,高电平有效
data_sram_addr32O数据RAM读写地址,字节寻址
data_sram_wdata32O数据RAM写数据
data_sram_rdata32I数据RAM读数据
debug信号,供验证平台使用
debug_wb_pc32O写回级(多周期最后一级)的PC,需要myCPU里将PC一路传递到写回级
debug_wb_rf_wen4O写回级写寄存器堆(regfiles)的写使能,为字节使能,如果myCPU写regfiles为单字节写使能,则将写使能扩展成4位即可
debug_wb_rf_wnum5O写回级写regfiles的目的寄存器号
debug_wb_rf_wdata32O写回级写regfiles的写数据

接口时序

略(MIPS经典五级流水线)

代码结构

MYCPU_TOP.v

|____IF.v

|____ID.v

|____RF.v(2个读端口,1个写端口)

|____SFR.v(1个读端口,2个写端口)

|____EXE.v

|____ALU.v

|____MUL_DIV.v(专门处理乘法和除法)

|____MUL.v

|____DIVU.v

|____DIVS.v

|____MEM.v

|____WB.v

|____MYCPU.h

DATA_RAM.v

IF.v(修改为IF_STAGE,因为会与关键词if冲突)

接口信号

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与TOP
inst_sram_en1ORAM使能信号,高电平有效
inst_sram_wen4ORAM字节写使能信号,高电平有效
inst_sram_addr32ORMA读写地址,字节寻址
inst_sram_wdata32ORAM写数据
inst_sram_rdata32IRAM读数据
与ID
id_to_if_allowin1Ipipe allowin
if_to_id_vld1Opipe valid
if_to_id_data64Opipe data(instruction 32-bits, pc 32-bits)
jump_bus33Ibranch instructions(enable 1bit,address 32-bits)

接口时序

ID.v

接口信号

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与IF
id_to_if_allowin1Opipe allowin
if_to_id_vld1Ipipe valid
if_to_id_data64Ipipe data(instruction 32-bits, pc 32-bits)
jump_bus33Obranch instructions(enable 1bit,address 32-bits)
与EXE
exe_to_id_allowin1Ipipe allowin
id_to_exe_vld1Opipe valid
id_to_exe_data162O{alu_op:21, shamt_is_shamt:1, imm_zero_ext_en:1, ins_R:1, ins_I:1, imm:16, mem_rd:1, mem_we:1, rf_we:1, rf_dst_addr:5, rt_data:32, rs_sfr_data_2:32, pc:32} {alu_op:21, shamt_is_shamt:1, imm_zero_ext_en:1, ins_R:1, ins_I:1, imm:16, lwx_bus_less2:8, swx_bus:8, rf_we:4, rf_dst_addr:5, rt_data:32, rs_sfr_data_2:32, pc:32}
exe_bypass_bus38I{exe_rf_we:1, exe_rf_dst_addr:5, exe_rf_data:32}
exe_to_id_sfr_bus76I[75] exe_sfr_we1 [74:70] exe_sfr_w_addr1 [69:38] exe_sfr_data1 [37] exe_sfr_we2 [36:32] exe_sfr_w_addr2 [31:0] exe_sfr_data2
lwx_bus_less2 将其合并至id_to_exe_data中10Olwx类总线: ins_lb: 1, ins_lbu: 1, ins_lh: 1, ins_lhu: 1, ins_lwl: 1, ins_lwr: 1, ins_lw: 1, rs_low2: 2 mem_rd: 1
swx_bus 将其合并至id_to_exe_data中8Oswx类总线: ins_sb: 1, ins_sh: 1, ins_swl: 1, ins_swr: 1, mem_we[3:0]: 4
mul_div_busy1I正在进行乘法或除法运算
与MEM
mem_bypass_bus38I{mem_rf_we:1, mem_rf_dst_addr:5, mem_rf_data:32}
与WB
wb_to_rf_bus41I{rf_we:4, rf_addr:5, rf_data:32}

接口信号(RF.v)

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
与ID内部信号
rf_r_addr15IRF读地址1
rf_r_data132ORF读数据1
rf_r_addr25IRF读地址2
rf_r_data232ORF读数据2
rf_wen14IRF写使能1
rf_w_addr15IRF写地址1
rf_w_data132ORF写数据1

接口信号(SFR)

当写入同一地址时,以sfr_we_1优先

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与ID内部信号
sfr_r_addr15ISFR读地址1
sfr_r_data132OSFR读数据1
sfr_we_11ISFR写使能1
sfr_w_addr15ISFR写地址1
sfr_w_data132ISFR写数据1
sfr_we_21ISFR写使能2
sfr_w_addr25ISFR写地址2
sfr_w_data232ISFR写数据2

接口时序

电路设计

在这里插入图片描述

图3-4-1 译码电路分组(注:黄线少画了两条)

根据附录——MIPS指令。由于跳转指令不传递给EXE阶段,直接传递给IF阶段,且为纯组合逻辑输出,有可能成为关键路径,故对跳转指令单独处理。除了跳转指令外,涉及加法(减法归为加法)的指令如图3-4-1所示,即ins_addu、ins_addiu、ins_subu、ins_lw、ins_sw。

对于图3-4-1的拼接运算,可以当作移位运算执行。

EXE.v

接口信号

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与TOP(外接的DATA_RAM)
data_sram_en1O数据RAM使能信号,高电平有效
data_sram_wen4O数据RAM字节写使能信号,高电平有效(4个比特,应该代表32 = 4 bytes)
data_sram_addr32O数据RAM读写地址,字节寻址
data_sram_wdata32O数据RAM写数据
与ID
exe_to_id_allowin1Opipe allowin
id_to_exe_vld1Ipipe valid
id_to_exe_data162O{alu_op:21, shamt_is_shamt:1, imm_zero_ext_en:1, ins_R:1, ins_I:1, imm:16, mem_rd:1, mem_we:1, rf_we:1, rf_dst_addr:5, rt_data:32, rs_sfr_data_2:32, pc:32} {alu_op:21, shamt_is_shamt:1, imm_zero_ext_en:1, ins_R:1, ins_I:1, imm:16, lwx_bus_less2:10, swx_bus:8, rf_we:4, rf_dst_addr:5, rt_data:32, rs_sfr_data_2:32, pc:32}
exe_bypass_bus41O{exe_rf_we:4, exe_rf_dst_addr:5, exe_rf_data:32}
exe_to_id_sfr_bus76O[75] exe_sfr_we1 [74:70] exe_sfr_w_addr1 [69:38] exe_sfr_data1 [37] exe_sfr_we2 [36:32] exe_sfr_w_addr2 [31:0] exe_sfr_data2
mul_div_busy1O正在进行乘法或除法运算
lwx_bus 将其合并至id_to_exe_data中10Ilwx类总线: ins_lb: 1, ins_lbu: 1, ins_lh: 1, ins_lhu: 1, ins_lwl: 1, ins_lwr: 1, ins_lw: 1, rs_low2: 2 mem_rd: 1
swx_bus 将其合并至id_to_exe_data中8Iswx类总线: ins_sb: 1, ins_sh: 1, ins_swl: 1, ins_swr: 1, mem_we[3:0]: 4
与MEM
mem_to_id_allowin1Ipipe allowin
exe_to_mem_vld1Opipe valid
exe_to_mem_data83O{mem_rd:1, rf_we:1, rf_dst_addr:5, pc:32(其实可以删掉pc,这里是debug显示用的,可以叫debug_pc), exe_result:32 {lwx_bus:10, rf_we:4, rf_dst_addr:5, pc:32(其实可以删掉pc,这里是debug显示用的,可以叫debug_pc), exe_result:32
lwx_bus 将其合并至id_to_exe_data中10Olwx类总线: ins_lb: 1, ins_lbu: 1, ins_lh: 1, ins_lhu: 1, ins_lwl: 1, ins_lwr: 1, ins_lw: 1, rs_low2: 2 mem_rd: 1

接口信号(ALU.v)

暂时不需要时钟和复位,纯组合逻辑

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与ID内部信号
alu_shamt6IALU移位(R-指令的shamt部分)
alu_op19IALU操作(加、减、乘除、位运算)
alu_din132IALU输入1
alu_din232IALU输入2
alu_out32OALU输出
mul_div_busy1O正在进行乘法或除法运算

接口信号(MUL_DIV.v)

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与ALU内部信号
alu_mult1I有符号乘
alu_multu1I无符号乘
alu_div1I有符号除
alu_divu1I无符号除
alu_mthi1I将寄存器 rs 的值写入到 HI 寄存器中
alu_mtlo1I将寄存器 rs 的值写入到LO寄存器中
alu_din132IALU输入1
alu_din232IALU输入2
exe_to_id_sfr_bus76O[75] exe_sfr_we1 [74:70] exe_sfr_w_addr1 [69:38] exe_sfr_data1 [37] exe_sfr_we2 [36:32] exe_sfr_w_addr2 [31:0] exe_sfr_data2
mul_div_busy1O正在进行乘法或除法运算

接口信号MUL.v

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与ALU内部信号
mul_din_vld1I数据有效信号
mul_din133I乘数1
mul_din233I乘数2
mul_result_hi32O乘法高32位
mul_result_lo32O乘法低32位

接口信号DIVU.v

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与ALU内部信号
divu_din_vld1I数据有效信号
divu_din133I被除数
divu_din233I除数
divu_hi32O结果高32位
divu_lo32O结果低32位

接口信号DIVS.v

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与ALU内部信号
divs_din_vld1I数据有效信号
divs_din133I被除数
divs_din233I除数
divs_hi32O结果高32位
divs_lo32O结果低32位

接口时序

MEM.v

接口信号

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与TOP(外接的DATA_RAM)
data_sram_rdata32I数据RAM读数据
与EXE
mem_to_exe_allowin1Opipe allowin
exe_to_mem_vld1Ipipe valid
exe_to_mem_data83I{mem_rd:1, rf_we:1, rf_dst_addr:5, pc:32(其实可以删掉pc,这里是debug显示用的,可以叫debug_pc), exe_result:32} {lwx_bus: 10, rf_we:4, rf_dst_addr:5, pc:32(其实可以删掉pc,这里是debug显示用的,可以叫debug_pc), exe_result:32}
lwx_bus 将其合并至id_to_exe_data中10Ilwx类总线: ins_lb: 1, ins_lbu: 1, ins_lh: 1, ins_lhu: 1, ins_lwl: 1, ins_lwr: 1, ins_lw: 1, rs_low2: 2 mem_rd: 1
与WB
wb_to_mem_allowin1Ipipe allowin
mem_to_wb_vld1Opipe valid
mem_to_wb_data73O{ rf_we:4, rf_dst_addr:5, mem_result:32, pc:32(其实可以删掉pc,这里是debug显示用的,可以叫debug_pc)}
与ID
mem_bypass_bus38O{mem_rf_we:4, mem_rf_dst_addr:5, mem_rf_data:32}

WB.v

接口信号

名称宽度方向描述
时钟与复位
clk1I时钟信号,来自clk_pll的输出时钟
resetn1I复位信号,低电平同步复位
与TOP
debug_wb_pc32O写回级(多周期最后一级)的PC,需要myCPU里将PC一路传递到写回级(与原书保持一致)
debug_wb_rf_wen4O写回级写寄存器堆(regfiles)的写使能,为字节使能,如果myCPU写regfiles为单字节写使能,则将写使能扩展成4位即可(与原书保持一致)
debug_wb_rf_wnum5O写回级写regfiles的目的寄存器号(与原书保持一致)
debug_wb_rf_wdata32O写回级写regfiles的写数据(与原书保持一致)
与MEM
wb_to_mem_allowin1Opipe allowin
mem_to_wb_vld1Ipipe valid
mem_to_wb_data73I{ rf_we:4, rf_dst_addr:5, mem_result:32, pc:32(其实可以删掉pc,这里是debug显示用的,可以叫debug_pc)}
与ID
wb_to_rf_bus41O{rf_we:4, rf_addr:5, rf_data:32}

接口时序

附录——参考

  1. 参考:处理机流水线------经典五段流水线-优快云博客

附录——原书指令

指令sel_nextpcinst_ram_weninst_ram_wensel_alu_src1sel_alu_src2alu_opdata_ram_endata_ram_wenrf_wesel_rf_dstsel_rf_res
ADDU0001100010010000000000010010010
ADDIU0001100010100000000000010010100
SUBU0001100010010000000000100010010
LW0001100010100000000000011010101
SW0001100010100000000000011100000
BEQ0010100000000000000000000000000
BNE0010100000000000000000000000000
JAL0100100101000000000000010011000
JR1000100000000000000000000000000
SLT0001100010010000000001000010010
SLTU0001100010010000000010000010010
SLL0001101000010001000000000010010
SRL0001101000010010000000000010010
SRA0001101000010100000000000010010
LUI0001100000101000000000000010100
AND0001100010010000000100000010010
OR0001100010010000010000000010010
XOR0001100010010000100000000010010
NOR0001100010010000001000000010010

Lab7完结

在这里插入图片描述

Lab7 后记

指令分析

摘自原书第6章

Lab7需要添加的指令如下:

MIPS中的转移指令包括分支指令(B开头)和跳转指令(J开头),前者是否跳转需要进行判断,后者一定跳转。

BGEZ类似BEQ和BNE,就是判断条件不同。(不写回寄存器)
BGTZ
BLEZ
BLTZ
JJAL的指令的一半,只跳转,不写回寄存器
BLTZAL=BLTZ + JAL的写回寄存器31
BGEZAL=BGEZ + JAL的写回寄存器31
JALR=JR/JAL + 写回寄存器rd(是R型指令,默认写回的寄存器就是rd) 在ID阶段的PC跳转利用JR指令 在IDEXEMEMWB的写回寄存器操作复用JAL指令
分隔行--------------------------------------------------分隔行
LB取字节,并进行 有/无 符号扩展 可复用lw指令
LBU
LH取双字节(半字),并进行 有/无 符号扩展 可复用lw指令
LHU
LWL详见:lab7\V4\doc\ 指令释义(LWL_LWR_SWL_SWR).xlsx
LWR
SB存字节
SH存双字节(半字)
SWL详见:lab7\V4\doc\ 指令释义(LWL_LWR_SWL_SWR).xlsx
SWR

SB与SH

摘自原书第6章P160

在这里插入图片描述

上面的代码,可以改为如下代码,并通过字节使能进行控制。下面的代码更简洁、逻辑更少、时序更好。

在这里插入图片描述

LWX指令

LB
LBU
LH
LHU
LWL
LWR
  1. 更新旁路,这几条指令的整体通路与LW指令类似,所以旁路与阻塞是必定要更新的
    1. 存储格式:注意,原书上P161明确指出:“现在,一般处理器中数据存储和处理实现为小尾端模式,本章设计的CPU也是如此,所以我们只需要实现小尾端模式下的非对齐访存”所以必须按小端处理,不然测试都没法测试。
      1. LWX指令
LB
LBU
LH
LHU
LWL
LWR

LWX指令与SWX指令

lwxxxx与swxxx指令:

  1. 与lw、sw指令类似,数据通路相同

    1. 关于书P163~P164的两种方案,我也陷入了纠结。

      最终我选择了方案一。理由如下:方案二不利于软件优化且性能较低,因为方案二增加了流水线阻塞的概率。方案二看似增加了

      原书P163~P164两种方案如下:

      其次,LWL 和LWR 指令需要根据访存地址最低两位的情况用数据 RAM 取出的字内容的一部分更新目的寄存器的部分内容。这里的“只对目的寄存器进行部分更新”是一个新特性,需要我们重点关注。

      有两种设计方案:一是为通用寄存器堆添加字节写使能信号,使其支持部分写;二是将目的寄存器作为源操作数,读取其旧值与待写人新值,拼接成最终的 32 位结果,再整体写回寄存器堆。两种方法各有优劣,我们来逐一分析。

      方案一:

      方案一的优点是不会与已执行的指令因目的寄存器而产生写后读相关关系,换言之,它

      不会像方案二那样因为微结构实现而引人一种“非软件所期待的相关”。它的缺点是,要对寄存器堆和数据前递的逻辑进行大范围调整。寄存器堆的设计调整很好理解: 原来一次写满-项的 4个字节,现在一次只能写其中的若干个字节,显然要对寄存器的写控制信号进行调整。Verilog代码的修改也很简单,把现在 1比特的写使能改为 4 比特,然后把原来的写入逻辑拆分成四等份,每份都是一个字节宽,每份只用新写使能中的一个比特作为写使能。但是,很多初学者修改完寄存器堆就结束了,忘记还要调整数据前递的逻辑。当然,为了绕过这个“坑”,我们也可以不对 LWL 和 LWR 做数据前递。这个解决方法虽然对,但它是个“懒人的办法”,并不高效。所以,建议还是修改前递数据通路,原先访存级、写回级送到译码级的写目的寄存器的有效信号只有 1比特,要把它像寄存器堆那样拆成4个字节独立控制的4个有效信号。相应地,译码级的 32 位宽的前递数据多选一部分也要拆分成4个8位宽的部分。单纯从逻辑来看,译码级的多路选择器的电路资源并没有增加。当我们把这层“窗户纸”捅破之后,方案一实现起来也不那么复杂了。那么这个方案是不是完美方案呢?接下来我们再“加点料”,说说这个方案在功耗控制方面的一点“小坑”这部分内容难度较大,而且与 FPGA 这样的实现平台无关,因此仅供有兴趣进一步研究系统结构的读者参考,这里算是先开个小灶。

      首先要注意几个关键词:静态功耗、动态功耗、时钟网络功耗、动态功耗优化、时钟门控技术。这些知识点需要太多篇幅来展开介绍,请读者自行上网查资料自学。总之,你应该有这样的总体认识:CPU 这样的数字逻辑电路的功耗可简单分为静态功耗和动态功耗两部分;时钟网络功耗和触发器的动态功耗在 CPU 的动态功耗中占比显著;时钟门控技术是一种降低时钟网络功耗和触发器动态功耗的常用技术,它使用时钟门控单元在触发器不需要更新时关断其时钟,目前主流 EDA 工具在综合实现过程中会自行插人时钟门控单元。了解了这些知识,再来看方案一的代码调整,如果不加任何处理,新代码的寄存器堆 EDA 工具会插入 128 个时钟门控单元,而旧代码的寄存器堆只有 32 个时钟门控单元。观察寄存器堆没有写入请求时的功耗,而新代码的功耗显著高于旧代码,为什么? 原因就在多出的那96个时钟门控单元上。因此,方案一会导致 CPU 轻负载情况下平均功耗的增加。一旦知道问题出在哪里,我们就有办法优化。考虑到 LWL 和 LWR 指令的出现频率并不是很高,大部分情况下,寄存器还是一次写入4个字节,所以我们调整代码的书写风格,使得 EDA 自动插入的门控时钟单元还是每一项只配一个。最终代码如下:

      在这里插入图片描述

      方案二

      方案二的优点与方案一的缺点互补,即整个寄存器堆以及数据前递逻辑都不需要进行调整。显然,此时目的寄存器要作为源操作数读出来。好在读第rt 项寄存器的数据通路已经存在,我们复用即可。但是,千万不要忘记将 LWL 和 LWR 指令的 rt 域作为源操作数添加到存器相关判断逻辑中。此外,rt 项读出的数据原本没有传递到访存流水级,这也需要添加相应的数据通路。至于寄存器的旧值和数据 RAM 的返回值如何拼接成最终的32 位结果,这逻辑不复杂,我们就不详细说明了。方案二的缺点在前面分析方案一的时候已经提到过,就是因为微结构实现而引人了一种“非软件所期待的相关”,也就是明明 rt 是 LWL 和 LWR的目的寄存器,但是如果前面有一个写rt 寄存器的操作,LWL 和 LWR 就需要等它的值。这个现象是否常见呢?其实很常见,回顾《计算机体系结构基础(第 2 版)》中 2.5.4 节第(1)部分给出的示例,你会发现,如果用一个 LWL+LWR 指令对来实现一个非字对齐地址上的取字操作,这两条指令之间就会产生这种“非软件所期待的相关”,从而造成一拍的阻塞,即需要 3个周期而非 2个周期才能执行完一个字的读取操作。

      那么方案一和方案二哪个更好呢?读者可以按照自己的喜好自行选择。如果你愿意为了追求性能不怕麻烦,那么方案一更胜一筹

lwl等指令

lwl、lwr、swl、swr指令文档中没有写其指令编码,本人依据此链接下的编码进行编写:32位mips指令说明_lbu指令什么意思-优快云博客

rf_we与mem_we

  1. 刚开始本人将这两个信号均在ID阶段实现,后来发现指令忘读了,lwl、swl等指令是根据ALU出来的加法结果来决定rf_we和mem_we的,因此不可能在ID阶段就实现。mem_we还好,因为不会涉及旁路,但是rf_we会影响旁路,但是rf_we在ID阶段不出来信号,就会影响exeID的旁路检测,故本人决定“造假”,即对于lwl、swl等指令在ID阶段,强制将rf_we置为全1,在exe阶段等ALU的加法结果出来后,再更正rf_we的结果。
    1. 对mem_we也进行造假,在ID阶段,将其置为全1,在EXE阶段再更正mem_we的结果(可以直接删掉mem_we的,但是这个信号后面还会用于判断,为了避免过度耦合,并且也只多出了4个寄存器,我接受了)。

RAM格式

之前的data_ram的读写地址都是4的整数倍,所以不需要关注字节、半字长这种数据操作时的读写地址,但是Lab7涉及lb、lh、lwl、sb等指令,有必要关注一波:

  1. 在soc_lite_top.v中,可以看到读写地址并没有使用32bits,而是只使用了16bits,如下图所示:[17:2],所以可以见得这是将读写地址的低2位给忽略了,基于此才可以正确设计lb、lh等指令的数据通路。

在这里插入图片描述

LAB7——Debug

语法报错拼接

{8{bypass_rf_we_reverse[3]}, 8{bypass_rf_we_reverse[2]},8{bypass_rf_we_reverse[1]}, 8{bypass_rf_we_reverse[0]}}

改为:

{{8{bypass_rf_we_reverse[3]}}, {8{bypass_rf_we_reverse[2]}},{8{bypass_rf_we_reverse[1]}}, {8{bypass_rf_we_reverse[0]}}}

lw报错

控制信号都是对的,应该是数据错了,经排查发现错误:
在这里插入图片描述

在这里插入图片描述

改为:

在这里插入图片描述

srav报错

在这里插入图片描述

  1. 这条指令就当是Lab6检查出来错误的,然而Lab6并没有报错,但是在Lab7进行的过程中报错了。

    1. 解决该Bug实际消耗本人一整天,从第一天晚上开始到第二天下午结束。

      1. 经过本人反复验证,重新添加inst_ram.coe,重新多次simulation,并反复计算验证,最终确定数据通路、控制通路没有问题,于是本人开始怀疑官方给的测试代码是不是有问题:

        首先明确指令:

        在这里插入图片描述

        t0寄存器编号为8,s0寄存器编号为16(16进制下为10)

  • cpu132_gettrace工程下t0值为0x800d0000,s0的值为0x33

  • mycpu_verify工程下t0值为0x800d0000,s0的值为0x33

    即数据是一样的,就看是怎样执行的了:

  • cpu132_gettrace工程下为0x800d0000 >>> 0x13 = 0xfffff_0001

  • mycpu_verify工程下t0值为0x800d0000>>> 0x33 = 0xffff_ffff

    也就是移位出了问题

    这个时候,我还没意识到是我对指令的理解出了问题,遂看了cpu132_gettrace的源码:

    在这里插入图片描述

    发现shft0_b的值是0x13,并且shft_op的值为1,然后取的是rs_v2的低5位,看到这了,我意识到对指令的理解有问题,遂取看指令:

    在这里插入图片描述

    查看srav指令知道,移位只取rs的低5位,好吧,我看得急,因为寄存器也是5位的,估计当时是直接当成寄存器编号了。(但是出错之后我也是第一时间看这个文档啊,怎么没有发现,直到看了源码才发现呢???先入为主害人啊。)

    1. 同理srav、srlv、sllv均理解出错,已在修正,更改如下:

      在这里插入图片描述

      改为:

      在这里插入图片描述

bgez报错

在这里插入图片描述

这个错误是因为前面的bgez错误导致跳转出错的,具体原因为:本人将32’h0和32’h8000_0000都当作0,故写成如下代码:

assign rs_eq_zero = id_rs_data[30:0] == 31’h0 ;

现已更改为:

assign rs_eq_zero = id_rs_data[31:0] == 32’h0 ;

lb错

忘了将lb指令添加至id_ins_I中了

在这里插入图片描述

修改成:

在这里插入图片描述

lw报错

在这里插入图片描述

14.3节中,进行了exe_data<0的清零操作,但是没有将mem_data进行清零操作,当进行连续lw操作时,会报错,因为mem_data会维持上一周期的数据,这会使旁路造成误判:

在这里插入图片描述

在执行到上面三条指令时,第1条是写寄存器a1,而第2、3条均需要读寄存器a1,如果不对mem_data进行清零,会使得在执行第3条指令的ID阶段时,误判为MEMID旁路,而实际上应该是WBID旁路。故需要对mem_data进行数据类似14.3节中的清零。经分析wb_data不需要清零,因为wb阶段是最后一阶段,不清零无影响。

这里的lw报错是流水线阻塞的问题,应当在Lab4阶段就查出来的,然而没有查出来,本人遂修改了Lab4、Lab6、Lab7的代码:

在这里插入图片描述

还是考虑的不周全!

lb报错

在这里插入图片描述

这个是遗漏的问题,直接拷贝的sw的mem的写使能,忘记更改了:实际上,lwx指令是全部写入寄存器的
在这里插入图片描述
改为:

在这里插入图片描述

因为除了lwl、lwr,剩下的lwx指令全都是4’b1111,而lwl、lwr指令又会在EXE阶段更新rf_we:

在这里插入图片描述

因此,在ID阶段,直接:

assign id_rf_we = {4{ins_lwx}}

即可。

lh报错:

在这里插入图片描述

原因是在MEM.v中,对数据的控制出错,因此为lh的控制应当是mem_raddr_low2的第1-bit,而不是第0-bit

在这里插入图片描述

改为:

在这里插入图片描述

同理,我想到EXE.v中的sh_we有同样的问题:

在这里插入图片描述

改为:

在这里插入图片描述

lwr报错

在这里插入图片描述

修改如下:一个是位选择写错了:31:15 改为 31:16

另一个也是位选择错了:23:0 改为 31:8

在这里插入图片描述

然后还发现一处错误,扩展应该是32,而不是4:

在这里插入图片描述

在这里插入图片描述

改为:

在这里插入图片描述

然而还发现一个错误:

在这里插入图片描述

这里应该是15:0,而不是15:8。想捶自己。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Greate AUK

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值