欢迎访问我的个人博客:[Talk is cheap. Show me the code!]。我相信会有所收获的。
学习前人以造福后人...
网上关于单周期CPU设计这个实验的博客很多,质量也不错,但关于Verilog代码的编写好像也没全部给出,造成“全抄”后依旧无法解决该实验,所以,我决定真正“造福”后人,把代码全部给出,以供后人学习,如有错漏希望大家能谅解。
一. 实验目的
(1) 掌握单周期CPU数据通路图的构成、原理及其设计方法;
(2) 掌握单周期CPU的实现方法,代码实现方法;
(3) 认识和掌握指令与CPU的关系;
(4) 掌握测试单周期CPU的方法。
二. 实验内容
设计一个单周期CPU,该CPU至少能实现以下指令功能操作。需设计的指令与格式如下:
==>算术运算指令
(1)add rd , rs, rt (说明:以助记符表示,是汇编指令;以代码表示,是机器指令)
000000
rs(5位)
rt(5位)
rd(5位)
reserved
功能:rd←rs + rt。reserved为预留部分,即未用,一般填“0”。
(2)addi rt , rs ,immediate
000001
rs(5位)
rt(5位)
immediate(16位)
功能:rt←rs + (sign-extend)immediate;immediate符号扩展再参加“加”运算。
(3)sub rd , rs , rt
000010
rs(5位)
rt(5位)
rd(5位)
reserved
完成功能:rd←rs - rt
==> 逻辑运算指令
(4)ori rt , rs ,immediate
010000
rs(5位)
rt(5位)
immediate(16位)
功能:rt←rs | (zero-extend)immediate;immediate做“0”扩展再参加“或”运算。
(5)and rd , rs , rt
010001
rs(5位)
rt(5位)
rd(5位)
reserved
功能:rd←rs & rt;逻辑与运算。
(6)or rd , rs , rt
010010
rs(5位)
rt(5位)
rd(5位)
reserved
功能:rd←rs | rt;逻辑或运算。
==> 传送指令
(7)move rd , rs
100000
rs(5位)
00000
rd(5位)
reserved
功能:rd←rs + $0 ;$0=$zero=0。
==> 存储器读/写指令
(8)sw rt ,immediate(rs) 写存储器
100110
rs(5位)
rt(5位)
immediate(16位)
功能:memory[rs+ (sign-extend)immediate]←rt;immediate符号扩展再相加。
(9)lw rt , immediate(rs) 读存储器
100111
rs(5位)
rt(5位)
immediate(16位)
功能:rt ← memory[rs + (sign-extend)immediate];immediate符号扩展再相加。
==> 分支指令
(10)beq rs,rt,immediate
110000
rs(5位)
rt(5位)
immediate(位移量,16位)
功能:if(rs=rt) pc←pc +4 + (sign-extend)immediate <<2;
特别说明:immediate是从PC+4地址开始和转移到的指令之间指令条数。immediate符号扩展之后左移2位再相加。为什么要左移2位?由于跳转到的指令地址肯定是4的倍数(每条指令占4个字节),最低两位是“00”,因此将immediate放进指令码中的时候,是右移了2位的,也就是以上说的“指令之间指令条数”。
==>停机指令
(11)halt
111111
00000000000000000000000000(26位)
功能:停机;不改变PC的值,PC保持不变。
在本文档中,提供的相关内容对于设计可能不足或甚至有错误,希望同学们在设计过程中如发现有问题,请你们自行改正,进一步补充、完善。谢谢!
三. 实验原理
单周期CPU指的是一条指令的执行在一个时钟周期内完成,然后开始下一条指令的执行,即一条指令用一个时钟周期完成。电平从低到高变化的瞬间称为时钟上升沿,两个相邻时钟上升沿之间的时间间隔称为一个时钟周期。时钟周期一般也称振荡周期(如果晶振的输出没有经过分频就直接作为CPU的工作时钟,则时钟周期就等于振荡周期。若振荡周期经二分频后形成时钟脉冲信号作为CPU的工作时钟,这样,时钟周期就是振荡周期的两倍。)
CPU在处理指令时,一般需要经过以下几个步骤:
(1) 取指令(IF):根据程序计数器PC中的指令地址,从存储器中取出一条指令,同时,PC根据指令字长度自动递增产生下一条指令所需要的指令地址,但遇到“地址转移”指令时,则控制器把“转移地址”送入PC,当然得到的“地址”需要做些变换才送入PC。
(2) 指令译码(ID):对取指令操作中得到的指令进行分析并译码,确定这条指令需要完成的操作,从而产生相应的操作控制信号,用于驱动执行状态中的各种操作。
(3) 指令执行(EXE):根据指令译码得到的操作控制信号,具体地执行指令动作,然后转移到结果写回状态。
(4) 存储器访问(MEM):所有需要访问存储器的操作都将在这个步骤中执行,该步骤给出存储器的数据地址,把数据写入到存储器中数据地址所指定的存储单元或者从存储器中得到数据地址单元中的数据。
(5) 结果写回(WB):指令执行的结果或者访问存储器中得到的数据写回相应的目的寄存器中。
单周期CPU,是在一个时钟周期内完成这五个阶段的处理。
图1 单周期CPU指令处理过程
MIPS32的指令的三种格式:
R类型:
31 26 25 21 20 16 15 11 10 6 5 0
op
rs
rt
rd
sa
func
6位 5位 5位 5位 5位 6位
I类型:
31 26 25 21 20 16 15 0
op
rs
rt
immediate
6位 5位 5位 16位
J类型:
31 26 25 0
op
address
6位 26位
其中,
op:为操作码;
rs:为第1个源操作数寄存器,寄存器地址(编号)是00000~11111,00~1F;
rt:为第2个源操作数寄存器,或目的操作数寄存器,寄存器地址(同上);
rd:为目的操作数寄存器,寄存器地址(同上);
sa:为位移量(shift amt),移位指令用于指定移多少位;
func:为功能码,在寄存器类型指令中(R类型)用来指定指令的功能;
immediate:为16位立即数,用作无符号的逻辑操作数、有符号的算术操作数、数据加载(Laod)/数据保存(Store)指令的数据地址字节偏移量和分支指令中相对程序计数器(PC)的有符号偏移量;
address:为地址。
图2 单周期CPU数据通路和控制线路图
图2是一个简单的基本上能够在单周期上完成所要求设计的指令功能的数据通路和必要的控制线路图。其中指令和数据各存储在不同存储器中,即有指令存储器和数据存储器。访问存储器时,先给出地址,然后由读/写信号控制(1-写,0-读。当然,也可以由时钟信号控制,但必须在图上标出)。对于寄存器组,读操作时,先给出地址,输出端就直接输出相应数据;而在写操作时,在 WE使能信号为1时,在时钟边沿触发写入。图中控制信号作用如表1所示,表2是ALU运算功能表。
表1 控制信号的作用
控制信号名
状态“0”
状态“1”
PCWre
PC不更改,相关指令:halt
PC更改,相关指令:除指令halt外
ALUSrcB
来自寄存器堆data2输出,相关指令:add、sub、or、and、move、beq
来自sign或zero扩展的立即数,相关指令:addi、ori、sw、lw
ALUM2Reg
来自ALU运算结果的输出,相关指令:add、addi、sub、ori、or、and、move
来自数据存储器(Data MEM)的输出,相关指令:lw
RegWre
无写寄存器组寄存器,相关指令:
sw、halt
寄存器组写使能,相关指令:add、addi、sub、ori、or、and、move、lw
InsMemRW
读指令存储器(Ins. Data),初始化为0
写指令存储器
DataMemRW
读数据存储器,相关指令:lw
写数据存储器,相关指令:sw
ExtSel
相关指令:ori,(zero-extend)immediate(0扩展)
相关指令:addi、sw、lw、beq,
(sign-extend)immediate(符号扩展)
PCSrc
PC←PC+4,相关指令:add、sub、ori、or、and、move、sw、lw、beq(zero=0)
PC←PC+4+(sign-extend)immediate,同时zero=1,相关指令:beq
RegOut
写寄存器组寄存器的地址,来自rt字段,相关指令:addi、ori、lw
写寄存器组寄存器的地址,来自rd字段,相关指令:add、sub、and、or、move
ALUOp[2..0]
ALU 8种运算功能选择(000-111),看功能表
相关部件及引脚说明:
InstructionMemory:指令存储器,
Iaddr,指令存储器地址输入端口
IDataIn,指令存储器数据输入端口(指令代码输入端口)
IDataOut,指令存储器数据输出端口(指令代码输出端口)
RW,指令存储器读写控制信号,为1写,为0读
DataMemory:数据存储器,
Daddr,数据存储器地址输入端口
DataIn,数据存储器数据输入端口
DataOut,数据存储器数据输出端口
RW,数据存储器读写控制信号,为1写,为0读
RegisterFile:(寄存器组)
Read Reg1,rs寄存器地址输入端口
Read Reg2,rt寄存器地址输入端口
Write Reg,将数据写入的寄存器端口,其地址来源rt或rd字段
Write Data,写入寄存器的数据输入端口
Read Data1,rs寄存器数据输出端口
Read Data2,rt寄存器数据输出端口
WE,写使能信号,为1时,在时钟上升沿写入
ALU:
result,ALU运算结果
zero,运算结果标志,结果为0输出1,否则输出0
表2 ALU运算功能表
ALUOp[2..0]
功能
描述
000
A + B
加
001
A – B
减
010
B – A
减
011
A ∨ B
或
100
A ∧ B
与
101
/A ∧ B
A非与B
110
A Å B
异或
111
A ⊙ B
同或
需要说明的是根据要实现的指令功能要求画出以上数据通路图,和确定ALU的运算功能(当然,以上指令没有完全用到提供的ALU所有功能,但至少必须能实现以上指令功能操作)。从数据通路图上可以看出控制单元部分需要产生各种控制信号,当然,也有些信号必须要传送给控制单元。从指令功能要求和数据通路图的关系得出以上表1,这样,从表1可以看出各控制信号与相应指令之间的相互关系,根据这种关系就可以得出控制信号与指令之间的关系表(留给学生完成),再根据关系表可以写出各控制信号的逻辑表达式,这样控制单元部分就可实现了。
指令执行的结果总是在下个时钟到来前开始保存到寄存器、或存储器中,PC的改变也是在这个时候进行。另外,值得注意的问题,设计时,用模块化的思想方法设计,关于ALU设计、存储器设计、寄存器组设计等等,也是必须认真考虑的问题。可以参考其他资料文档,里面有相应的设计方法介绍。(资料文档:MIPS汇编与单周期CPU.ppt)。
四. 实验器材
电脑一台、Xilinx Vivado 软件一套。
五. 实验分析与设计
分析:主要对图2 单周期CPU数据通路和控制线路图进行分析,我们不妨把CPU分成13个模块:pc、pcAddFour、pcAddImmediate、InstructionsMemory、ControlUnit、RegisterFile、ALU、DataMemory、signExtend、Mux_5、Mux_32_ALUSrcB、Mux_32_ALUM2Reg、Mux_32_PCSrc,下面对各个模块进行简单分析。
1.pc:即程序计数器program counter,如下图,其功能是获取当前指令的32位地址,传给指令存储器,并根据pc+4或者pc+4+immediate*4得到下一条指令的地址。由时钟信号CLK上升沿触发,并接收Reset重置信号,当Reset=1,pc的指令地址重置为0x00000000。
2.pcAddFour:pc = pc + 4,当前指令传入指令存储器后,计算下一条指令地址,如下图:
3.pcAddImmediate:pc = pc + 4 + (immediate_32*4),当需要进行跳转的时候,计算出跳转之后的指令的地址,注意immediate_32需要左移两位。
4.InstructionsMemory:指令存储器,通过指令存储器地址输入端口IAddr接收来自pc的指令地址,来获取该地址上的指令并通过数据输出端口IDataOut将指令传给寄存器堆RegisterFile。
5.ControlUnit:控制单元,主要用于发送控制各个模块的信号,实现控制各个模块的功能,主要的控制信号有10个,分别为:PCWre,ALUSrcB, ALUM2Reg, RegWre, InsMemRW, DataMemRW, ExtSel, PCSrc, RegOut, ALUOp,有关各个信号的功能放到设计中详述。另外接收来自指令的操作码opcode和来自ALU运算结果标志zero的值。
下面是各个控制信号和指令的关系表:
控制信号
指令
z
PCWre
ALUSrcB
ALUM2Reg
RegWre
InsMemRW
DataMemRW
ExtSel
PCSrc
RegOut
ALUOp[2..0]
add
x
1
0
0
1
0
X
X
0
1
000
addi
x
1
1
0
1
0
X
1
0
0
000
sub
x
1
0
0
1
0
X
X
0
1
001
ori
x
1
1
0
1
0
X
0
0
0
011
and
x
1
0
0
1
0
X
X
0
1
100
or
x
1
0
0
1
0
X
X
0
1
011
move
x
1
0
0
1
0
X
X
0
1
000
sw
x
1
1
X
0
0
1
1
0
X
000
lw
x
1
1
1
1
0
0
1
0
0
000
beq
0
1
0
X
0
0
X
1
0
X
001
1
1
0
X
0
X
X
1
1
X
001
halt
x
0
x
X
x
0
X
X
0
X
xxx
6.RegisterFile:寄存器堆,用来处理指令存储器传过来的指令,具体分为R型指令和I型指令,
R型指令为:
31 26 25 21 20 16 15 11 10 6 5 0
op
rs
rt
rd
sa
func
6位 5位 5位 5位 5位 6位
I型指令为:
31 26 25 21 20 16 15 0
op
rs
rt
immediate
6位 5位 5位 16位
然后将寄存器rs、rt有选择地送进ALU进行算术逻辑运算,然后将运算结果送回rt或者rd寄存器中。
7.ALU:算术逻辑单元,根据3位ALUOp控制信号来实现不同的运算,zero为运算结果标志,若结果为0输出为1,反之为0.
8.DataMemory:数据存储器,来自ALU的运算结果result作为地址输入端口DAddr,来自ControlUnit的控制信号DataMemRW控制数据存储器的读写操作,DataIn接收来自寄存器堆的第二个数据输入,对应sw指令。
9.signExtend:用于扩展16位立即数,将其转化为32位立即数,有选择地输入到ALU进行运算(I型指令)。
10.Mux_5:目的寄存器选择器:通过控制信号RegOut选择目的寄存器rt或者rd。若是R型指令,则目的寄存器为rd,若是I型指令则为rt寄存器。
11.Mux_32_ALUSrcB:扩展立即数选择器:通过控制信号ALUSrcB来判断输入ALU的第二个数据是rt寄存器中的数据还是32位立即数。若为1,则是32位立即数。
12.Mux_32_ALUM2Reg:数据写回寄存器选择器:通过控制信号ALUM2Reg来判断写回目的寄存器的数据是来自ALU的运算结果还是来自数据存储器DataMemory的数据。若为1,则是来自DataMemory的数据,且该指令为lw。
13.Mux_32_PCSrc:PC地址跳转选择器:通过控制信号PCSrc来判断是否需要跳转,若为0,即不跳转,下一条指令地址为pc+4;若为1,即跳转,下一条指令地址为pc+4+immediate_32*4.
设计:接下来对每一个模块进行设计,为了更好地说明,对各个模块涉及的参数详述。
1.pc:
参数
功能
PCWre
PC的写使能信号,若PCWre =0,即停机,则PC不更改,若PCWre = 1,PC可更改;
CLK
时钟信号,上升沿触发
Reset
重置信号,若Reset = 1重置
[31:0]out_pc
从pc输出的32位指令地址
[31:0]in_pc
输入pc的32位指令地址,可为pc+4或者pc+4+immediate_32*4
2.pcAddFour:
参数
功能
[31:0]in_pc
输入的指令地址
[31:0]out_pc
输出指令地址=输入指令地址+4=in_pc+4
3.pcAddImmediate:
参数
功能
[31:0]in_pc
输入的指令地址,此时已为pc+4
[31:0]offset
32位立即数
[31:0]out_pc
输出的32位指令地址 = 输入的指令地址+立即数*4=pc+4+offset*4
4.InstructionsMemory:
参数
功能
InsMemRW
读写控制信号,0:读,1:写
[31:0]IAddr
输入的当前指令地址
[31:0]instruction
输出的32位指令
5.ControlUnit:
参数
功能
[5:0]opcode
6位的指令操作码
zero
ALU的计算结果标志信号。运算结果为0时,zero = 1,不为0时,zero = 0
PCWre
PC是否需要更改的控制信号,0停机不更改
ALUSrcB
判断是否选择扩展立即数,0:非立即数(R型指令),1:立即数(I型指令)
ALUM2Reg
判断写回目的寄存器的数据来源,0:来自ALU的运算结果,1:来自DataMemory中的数据(lw指令)
RegWre
寄存器堆的写使能信号
InsMemRW
InstructionsMemory的读写信号,0:读,1:写
DataMemRW
DataMemory的读写信号,0:读,1:写
ExtSel
是否扩展立即数的控制信号,1扩展
PCSrc
判断PC的地址是否需要跳转,1跳转
RegOut
用于判断R型和I型指令中rt、rd寄存器谁为目的寄存器,R:rd;I:rt。
[2:0]ALUOp
ALU的控制信号,决定ALU的算术逻辑运算
6.RegisterFile:
参数
功能
RegWre
使能信号,当为1时,in_data写回rd寄存器,否则写回rt寄存器
CLK
时钟信号,上升沿触发
[4:0]rs
rs寄存器编号
[4:0]rt
rt寄存器编号
[4:0]rd
rd寄存器编号
[31:0]in_data
写回目的寄存器的32位结果
[31:0]ReadData1
输出rs寄存器的数据
[31:0]ReadData2
输出rt寄存器的数据
7.ALU:
参数
功能
[2:0]ALUOp
控制信号,决定ALU进行的算术逻辑运算
zero
运算结果为0,zero为1,否则为0
[31:0]A
第一个操作数A
[31:0]B
第二个操作数B
[31:0]result
32位的运算结果
8.DataMemory:
参数
功能
CLK
时钟信号,下降沿触发
DataMemRW
控制信号,0:读(lw),1:写(sw)
[31:0]DAddr
将ALU运算结果作为地址输入端口
[31:0]DataIn
来自寄存器堆的第二个数据输入
[31:0]DataOut
32位数据有选择地写回目的寄存器中
9.signExtend:
参数
功能
ExtSel
控制信号,0:不扩展,1:扩展
[15:0]immediate_16
从指令存储器接收到的32位指令中的16位立即数
[31:0]immediate_32
输出扩展为32位的立即数
10.Mux_5:
参数
功能
RegOut
控制信号RegOut选择目的寄存器,0:选择rt,1:选择rd
[4:0]A
寄存器rt
[4:0]B
寄存器rd
selected
输出选择结果A or B
11.Mux_32:
参数
功能
signal
控制信号(ALUSrcB、ALUM2Reg、PCSrc),0:选择A,1:选择B
[31:0]A
输入数据来源A
[31:0]B
输入数据来源B
selected
输出选择结果A or B
编写用来测试的汇编程序及相应的机器代码,如下表:
地址(十六进制)
汇编程序
指令代码
op(6)
rs(5)
rt(5)
rd(5)/immediate (16)
0x00000000
addi $1,$0,4
000001
00000
00001
0000 0000 0000 0100
0x00000004
addi $2,$0,4
000001
00000
00010
0000 0000 0000 0100
0x00000008
move $3,$1,$0
100000
00001
00000
00011
00000
000000
0x0000000C
beq $1,$2,1(到14)
110000
00001
00010
0000 0000 0000 0001
0x00000010
addi $4,$0,4
000001
00000
00100
0000 0000 0000 0100
0x00000014
sub $4,$2,$1
000010
00010
00001
00100
00000
000000
0x00000018
beq $3,$4,1(不转)
110000
00011
00100
0000 0000 0000 0001
0x0000001C
sw $2,0($2)
100110
00010
00010
0000 0000 0000 0000
0x00000020
lw $4,0($2)
100111
00010
00100
0000 0000 0000 0000
0x00000024
ori $4,$3,1
010000
00011
00100
0000 0000 0000 0001
0x00000028
or $5,$4,$1
010010
00100
00001
00101
00000
000000
0x0000002C
and $5,$4,$1
010001
00100
00001
00101
00000
000000
0x00000030
add $5,$1,$2
000000
00001
00010
00101
00000
000000
0x00000034
halt
111111
00000
00000
0000 0000 0000 0000
这里很多截图没放上,但关键部分也已经描述清楚,同时也欢迎下载整个项目代码及我的实验报告。
下载链接:
单周期CPU设计实验报告及项目代码