单总线CPU设计与硬布线控制

原创于 2025-11-04 12:46:28 发布 · 323 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#单总线CPU # 硬布线控制器 # 三级时序控制 # 变长指令周期 # FPGA # Verilog

AI助手已提取文章相关产品：

单总线CPU设计：从时序控制到硬布线逻辑的实践之路

在FPGA实验平台上“造”一颗能跑通汇编程序的CPU，听起来像是计算机体系结构课程里的终极挑战。而华中科技大学在“头歌”（EduCoder）平台推出的单总线CPU实验——特别是那个要求实现 变长指令周期+三级时序控制 的设计任务——正是这样一道既考验基础又锤炼思维的经典题目。

这并不是简单的模块拼接，也不是照搬课本图示就能通关的仿真练习。它逼你深入到每一个上升沿、每一条控制线、每一次总线争用的本质层面去思考：一个指令是如何被“一步步”执行出来的？为什么T1做A操作、T2做B操作？如果某条指令比别的慢怎么办？这些问题的答案，恰恰构成了我们理解现代处理器底层机制的起点。

整个系统围绕一条共享数据总线构建。ALU、寄存器堆、PC、IR、MAR、MDR等所有核心部件都挂在这条总线上，任何时刻只能有一个部件向总线输出数据。这种设计虽然牺牲了并行性，却极大简化了控制逻辑，非常适合教学场景下的RTL建模与调试。

真正让这个实验“活起来”的，是那套显式的 三级时序控制系统（T1/T2/T3） 。你可以把它看作CPU内部的节拍器：每个机器周期被划分为三个固定阶段，每个阶段触发一组特定的微操作。比如：

T1 ：准备地址或源操作数；
T2 ：读取内存或将第二操作数送入ALU；
T3 ：启动运算或将结果写回寄存器。

这样的划分不是随意的，而是为了匹配同步电路中信号传播和锁存的时序窗口。更关键的是，这套机制允许我们通过控制器动态决定：“这条指令是否还需要下一个周期？”这就引出了 变长指令周期 的核心思想。

像 ADD R1, R2 这种纯寄存器操作，一个T1-T2-T3循环足以完成取指、译码和执行；但 LW R1, 100(R2) 就不行了——它至少需要两个完整周期：第一个周期取指并解析出基址与偏移，第二个周期计算有效地址并发起访存，甚至第三个周期才能把数据写回目标寄存器。

如果不支持变长周期，要么所有指令都按最慢的来等，浪费资源；要么就得引入复杂的流水线冲突检测机制。而在教学环境中，采用可变周期+状态保持的方式，既能体现真实CPU的行为特征，又不至于让学生陷于难以调试的状态机泥潭。

那么，是谁在指挥这一切？答案是 硬布线控制器（CU） 。它不像微程序控制器那样查表取微指令，而是直接用组合逻辑根据当前操作码（opcode）、时序节拍（T1/T2/T3）以及部分标志位生成全部控制信号。这些信号细到每一个门控开关的程度：

PC_out —— 是否将PC内容放到总线上？
MAR_in —— 是否将总线上的值打入MAR？
RAM_read / RAM_write —— 发起读/写请求？
Rs_out —— 源寄存器输出使能？
ALU_op —— 设置ALU执行加法还是减法？
Reg_write —— 允许写入通用寄存器？

每一个信号的开启时机必须精确对应T1/T2/T3中的某一拍，否则就会出现“还没读出来就试图写回”或者“地址没稳定就发读命令”这类致命错误。

举个例子，对于 LW 指令的执行流程可以拆解为多周期微操作序列：

周期	节拍	动作	控制信号
1	T1	PC → MAR	PC_out=1, MAR_in=1
	T2	启动取指读操作	RAM_read=1
	T3	MDR → IR, PC+1	MDR_out=1, IR_in=1; PC_inc=1
2	T1	Rs + Offset → ALU	Rs_out=1, Imm_ext→ALU_B, ALU_op=ADD
	T2	ALU结果→MAR	ALU_out=1, MAR_in=1
	T3	再次启动RAM读	RAM_read=1, MDR_in=1
3	T1	MDR → 目标寄存器	MDR_out=1, Reg_in=1, Reg_dst=Rd
	T2/T3	空闲	所有信号置0

注意这里跨越了三个机器周期，且每一拍的动作都严格依赖前一拍的结果。控制器必须能够识别当前处于哪条指令的哪个阶段，并据此输出正确的控制字。实现上通常采用一个大的 case 语句块，以 {opcode, T1, T2, T3} 作为选择条件，逐条定义每种情况下的信号赋值。

下面是典型的三级时序发生器Verilog实现：

module timer (
    input       clk,
    input       reset,
    output reg  T1, T2, T3
);
    reg [1:0] state;

    always @(posedge clk or posedge reset) begin
        if (reset) begin
            state <= 2'b00;
            T1 <= 0; T2 <= 0; T3 <= 0;
        end else begin
            case(state)
                2'b00: begin
                    T1 <= 1; T2 <= 0; T3 <= 0;
                    state <= 2'b01;
                end
                2'b01: begin
                    T1 <= 0; T2 <= 1; T3 <= 0;
                    state <= 2'b10;
                end
                2'b10: begin
                    T1 <= 0; T2 <= 0; T3 <= 1;
                    state <= 2'b00;
                end
                default: state <= 2'b00;
            endcase
        end
    end
endmodule

该模块使用独热编码方式输出T1/T2/T3，确保任意时刻只有一个节拍有效，避免多个控制动作同时发生导致总线冲突或寄存器误写。状态机循环运行，在无复位的情况下持续产生三拍节奏。

控制器部分则更为复杂。以下是一个简化的控制信号生成片段，展示了如何根据不同指令和节拍组合驱动硬件动作：

always @(posedge clk) begin
    if (reset) begin
        // 初始化所有控制信号
        PC_out <= 0; MAR_in <= 0; RAM_read <= 0;
        MDR_in <= 0; IR_in <= 0; PC_inc <= 0;
        Rs_out <= 0; Rt_out <= 0;
        ALU_op <= 0; Result_to_Reg <= 0;
        Reg_write <= 0;
    end else begin
        case ({opcode, T1, T2, T3})
            // ADD 指令：假设 opcode = 3'b000
            {3'b000, 1,0,0}: begin  // T1
                Rs_out <= 1;
            end
            {3'b000, 0,1,0}: begin  // T2
                Rt_out <= 1;
            end
            {3'b000, 0,0,1}: begin  // T3
                ALU_op <= 2'b00;           // ADD
                Result_to_Reg <= 1;
                Reg_write <= 1;
            end

            // LW 指令：opcode = 3'b001
            {3'b001, 1,0,0}: begin  // 第一周期 T1
                PC_out <= 1; MAR_in <= 1;
            end
            {3'b001, 0,1,0}: begin  // T2
                RAM_read <= 1;
            end
            {3'b001, 0,0,1}: begin  // T3
                MDR_in <= 1; IR_in <= 1; PC_inc <= 1;
            end

            // 注意：后续周期需继续处理地址计算与访存
            // 可结合额外状态变量判断是否仍在执行LW
            ...

            default: begin /* idle */ end
        endcase
    end
end

实际项目中建议将控制逻辑拆分为多个 always 块，分别处理PC管理、存储访问、ALU调度等子系统，提升代码可读性和维护性。此外，加入调试输出（如LED显示当前T状态、opcode、MAR值）对定位问题极为重要。

回到“头歌”平台的具体任务，其实验通常分为六个递进关卡，逐步验证功能完整性：