单周期CPU设计

xiaoxiao2021-02-28  404

欢迎访问我的个人博客:[Talk is cheap. Show me the code!]。我相信会有所收获的。

学习前人以造福后人...

网上关于单周期CPU设计这个实验的博客很多,质量也不错,但关于Verilog代码的编写好像也没全部给出,造成“全抄”后依旧无法解决该实验,所以,我决定真正“造福”后人,把代码全部给出,以供后人学习,如有错漏希望大家能谅解。

一.     实验目的 

(1) 掌握单周期CPU数据通路图的构成、原理及其设计方法;

(2) 掌握单周期CPU的实现方法,代码实现方法;

(3) 认识和掌握指令与CPU的关系;

(4) 掌握测试单周期CPU的方法。

 

二.     实验内容

设计一个单周期CPU,该CPU至少能实现以下指令功能操作。需设计的指令与格式如下:

==>算术运算指令

(1)add rd , rs, rt  (说明:以助记符表示,是汇编指令;以代码表示,是机器指令

000000

rs(5位)

rt(5位)

rd(5位)

reserved

功能:rd←rs + rt。reserved为预留部分,即未用,一般填“0”。

(2)addi rt , rs ,immediate 

000001

rs(5位)

rt(5位)

immediate(16位)

功能:rt←rs + (sign-extend)immediate;immediate符号扩展再参加“加”运算。

(3)sub rd , rs , rt

000010

rs(5位)

rt(5位)

rd(5位)

reserved

完成功能:rd←rs - rt

    ==> 逻辑运算指令

(4)ori rt , rs ,immediate 

010000

rs(5位)

rt(5位)

immediate(16位)

功能:rt←rs | (zero-extend)immediate;immediate做“0”扩展再参加“或”运算。

(5)and rd , rs , rt

010001

rs(5位)

rt(5位)

rd(5位)

reserved

功能:rd←rs & rt;逻辑与运算。

    (6)or rd , rs , rt

010010

rs(5位)

rt(5位)

rd(5位)

reserved

功能:rd←rs | rt;逻辑或运算。

==> 传送指令

    (7)move  rd , rs  

100000

rs(5位)

00000

rd(5位)

reserved

功能:rd←rs + $0 ;$0=$zero=0。

==> 存储器读/写指令

(8)sw rt ,immediate(rs) 写存储器

100110

rs(5位)

rt(5位)

immediate(16位)

    功能:memory[rs+ (sign-extend)immediate]←rt;immediate符号扩展再相加。

(9)lw  rt , immediate(rs) 读存储器

100111

rs(5位)

rt(5位)

immediate(16位)

功能:rt ← memory[rs + (sign-extend)immediate];immediate符号扩展再相加。

 ==> 分支指令

    (10)beq rs,rt,immediate     

110000

rs(5位)

rt(5位)

immediate(位移量,16位)

功能:if(rs=rt) pc←pc +4 + (sign-extend)immediate <<2;

特别说明:immediate是从PC+4地址开始和转移到的指令之间指令条数。immediate符号扩展之后左移2位再相加。为什么要左移2位?由于跳转到的指令地址肯定是4的倍数(每条指令占4个字节),最低两位是“00”,因此将immediate放进指令码中的时候,是右移了2位的,也就是以上说的“指令之间指令条数”。

==>停机指令

(11)halt

111111

00000000000000000000000000(26位)

功能:停机;不改变PC的值,PC保持不变。

 

在本文档中,提供的相关内容对于设计可能不足或甚至有错误,希望同学们在设计过程中如发现有问题,请你们自行改正,进一步补充、完善。谢谢!

 

三.     实验原理

单周期CPU指的是一条指令的执行在一个时钟周期内完成,然后开始下一条指令的执行,即一条指令用一个时钟周期完成。电平从低到高变化的瞬间称为时钟上升沿,两个相邻时钟上升沿之间的时间间隔称为一个时钟周期。时钟周期一般也称振荡周期(如果晶振的输出没有经过分频就直接作为CPU的工作时钟,则时钟周期就等于振荡周期。若振荡周期经二分频后形成时钟脉冲信号作为CPU的工作时钟,这样,时钟周期就是振荡周期的两倍。)

   CPU在处理指令时,一般需要经过以下几个步骤:

   (1) 取指令(IF):根据程序计数器PC中的指令地址,从存储器中取出一条指令,同时,PC根据指令字长度自动递增产生下一条指令所需要的指令地址,但遇到“地址转移”指令时,则控制器把“转移地址”送入PC,当然得到的“地址”需要做些变换才送入PC。

   (2) 指令译码(ID):对取指令操作中得到的指令进行分析并译码,确定这条指令需要完成的操作,从而产生相应的操作控制信号,用于驱动执行状态中的各种操作。

   (3) 指令执行(EXE):根据指令译码得到的操作控制信号,具体地执行指令动作,然后转移到结果写回状态。

   (4) 存储器访问(MEM):所有需要访问存储器的操作都将在这个步骤中执行,该步骤给出存储器的数据地址,把数据写入到存储器中数据地址所指定的存储单元或者从存储器中得到数据地址单元中的数据。

   (5) 结果写回(WB):指令执行的结果或者访问存储器中得到的数据写回相应的目的寄存器中。

   单周期CPU,是在一个时钟周期内完成这五个阶段的处理。

图1  单周期CPU指令处理过程

MIPS32的指令的三种格式:

R类型:

31       26 25       21 20     16 15       11 10        6 5       0

op

rs

rt

rd

sa

func

  6位         5位       5位       5位        5位        6位

 

I类型:

31        26 25         21 20        16 15                       0

op

rs

rt

immediate

6位         5位          5位                16位

 

J类型:

31        26 25                                                0

op

address

6位                            26位

其中,

op:为操作码;

rs:为第1个源操作数寄存器,寄存器地址(编号)是00000~11111,00~1F;

rt:为第2个源操作数寄存器,或目的操作数寄存器,寄存器地址(同上);

rd:为目的操作数寄存器,寄存器地址(同上);

sa:为位移量(shift amt),移位指令用于指定移多少位;

func:为功能码,在寄存器类型指令中(R类型)用来指定指令的功能;

immediate:为16位立即数,用作无符号的逻辑操作数、有符号的算术操作数、数据加载(Laod)/数据保存(Store)指令的数据地址字节偏移量和分支指令中相对程序计数器(PC)的有符号偏移量;

address:为地址。

图2  单周期CPU数据通路和控制线路图

图2是一个简单的基本上能够在单周期上完成所要求设计的指令功能的数据通路和必要的控制线路图。其中指令和数据各存储在不同存储器中,即有指令存储器和数据存储器。访问存储器时,先给出地址,然后由读/写信号控制(1-写,0-读。当然,也可以由时钟信号控制,但必须在图上标出)。对于寄存器组,读操作时,先给出地址,输出端就直接输出相应数据;而在写操作时,在 WE使能信号为1时,在时钟边沿触发写入。图中控制信号作用如表1所示,表2是ALU运算功能表。

表1 控制信号的作用

控制信号名

状态“0”

状态“1”

PCWre

PC不更改,相关指令:halt

PC更改,相关指令:除指令halt外

ALUSrcB

来自寄存器堆data2输出,相关指令:add、sub、or、and、move、beq

来自sign或zero扩展的立即数,相关指令:addi、ori、sw、lw

ALUM2Reg

来自ALU运算结果的输出,相关指令:add、addi、sub、ori、or、and、move

来自数据存储器(Data MEM)的输出,相关指令:lw

RegWre

无写寄存器组寄存器,相关指令:

sw、halt

寄存器组写使能,相关指令:add、addi、sub、ori、or、and、move、lw

InsMemRW

读指令存储器(Ins. Data),初始化为0

写指令存储器

DataMemRW

读数据存储器,相关指令:lw

写数据存储器,相关指令:sw

ExtSel

相关指令:ori,(zero-extend)immediate(0扩展)

相关指令:addi、sw、lw、beq,

(sign-extend)immediate(符号扩展)

PCSrc

PC←PC+4,相关指令:add、sub、ori、or、and、move、sw、lw、beq(zero=0)

PC←PC+4+(sign-extend)immediate,同时zero=1,相关指令:beq

RegOut

写寄存器组寄存器的地址,来自rt字段,相关指令:addi、ori、lw

写寄存器组寄存器的地址,来自rd字段,相关指令:add、sub、and、or、move

ALUOp[2..0]

ALU 8种运算功能选择(000-111),看功能表

相关部件及引脚说明:

InstructionMemory:指令存储器,

        Iaddr,指令存储器地址输入端口

        IDataIn,指令存储器数据输入端口(指令代码输入端口)

        IDataOut,指令存储器数据输出端口(指令代码输出端口)

        RW,指令存储器读写控制信号,为1写,为0读

DataMemory:数据存储器,

        Daddr,数据存储器地址输入端口

        DataIn,数据存储器数据输入端口

        DataOut,数据存储器数据输出端口

        RW,数据存储器读写控制信号,为1写,为0读

RegisterFile:(寄存器组)

        Read Reg1,rs寄存器地址输入端口

        Read Reg2,rt寄存器地址输入端口

        Write Reg,将数据写入的寄存器端口,其地址来源rt或rd字段

        Write Data,写入寄存器的数据输入端口

        Read Data1,rs寄存器数据输出端口

        Read Data2,rt寄存器数据输出端口

        WE,写使能信号,为1时,在时钟上升沿写入

ALU:

        result,ALU运算结果

        zero,运算结果标志,结果为0输出1,否则输出0

 

表2 ALU运算功能表       

ALUOp[2..0]

功能

描述

000

A + B

001

A – B

010

B – A

011

A ∨ B

100

A ∧ B

101

/A ∧ B

A非与B

110

A Å B

异或

111

A ⊙ B

同或

 

需要说明的是根据要实现的指令功能要求画出以上数据通路图,和确定ALU的运算功能(当然,以上指令没有完全用到提供的ALU所有功能,但至少必须能实现以上指令功能操作)。从数据通路图上可以看出控制单元部分需要产生各种控制信号,当然,也有些信号必须要传送给控制单元。从指令功能要求和数据通路图的关系得出以上表1,这样,从表1可以看出各控制信号与相应指令之间的相互关系,根据这种关系就可以得出控制信号与指令之间的关系表(留给学生完成),再根据关系表可以写出各控制信号的逻辑表达式,这样控制单元部分就可实现了。

指令执行的结果总是在下个时钟到来前开始保存到寄存器、或存储器中,PC的改变也是在这个时候进行。另外,值得注意的问题,设计时,用模块化的思想方法设计关于ALU设计、存储器设计、寄存器组设计等等,也是必须认真考虑的问题。可以参考其他资料文档,里面有相应的设计方法介绍。(资料文档:MIPS汇编与单周期CPU.ppt)。

 

四.     实验器材

电脑一台、Xilinx Vivado 软件一套。

五.     实验分析与设计

分析:主要对图2  单周期CPU数据通路和控制线路图进行分析,我们不妨把CPU分成13个模块:pc、pcAddFour、pcAddImmediate、InstructionsMemory、ControlUnit、RegisterFile、ALU、DataMemory、signExtend、Mux_5、Mux_32_ALUSrcB、Mux_32_ALUM2Reg、Mux_32_PCSrc,下面对各个模块进行简单分析。

1.pc即程序计数器program counter,如下图,其功能是获取当前指令的32位地址,传给指令存储器,并根据pc+4或者pc+4+immediate*4得到下一条指令的地址。由时钟信号CLK上升沿触发,并接收Reset重置信号,当Reset=1,pc的指令地址重置为0x00000000。

2.pcAddFourpc = pc + 4,当前指令传入指令存储器后,计算下一条指令地址,如下图:

3.pcAddImmediatepc = pc + 4 + (immediate_32*4),当需要进行跳转的时候,计算出跳转之后的指令的地址,注意immediate_32需要左移两位。

4.InstructionsMemory指令存储器,通过指令存储器地址输入端口IAddr接收来自pc的指令地址,来获取该地址上的指令并通过数据输出端口IDataOut将指令传给寄存器堆RegisterFile。

5.ControlUnit控制单元,主要用于发送控制各个模块的信号,实现控制各个模块的功能,主要的控制信号有10个,分别为:PCWre,ALUSrcB, ALUM2Reg, RegWre, InsMemRW, DataMemRW, ExtSel, PCSrc, RegOut, ALUOp,有关各个信号的功能放到设计中详述。另外接收来自指令的操作码opcode和来自ALU运算结果标志zero的值。

下面是各个控制信号和指令的关系表:

 

控制信号

指令

z

PCWre

ALUSrcB

ALUM2Reg

RegWre

InsMemRW

DataMemRW

ExtSel

PCSrc

RegOut

ALUOp[2..0]

add

x

1

0

0

1

0

X

X

0

1

000

addi

x

1

1

0

1

0

X

1

0

0

000

sub

x

1

0

0

1

0

X

X

0

1

001

ori

x

1

1

0

1

0

X

0

0

0

011

and

x

1

0

0

1

0

X

X

0

1

100

or

x

1

0

0

1

0

X

X

0

1

011

move

x

1

0

0

1

0

X

X

0

1

000

sw

x

1

1

X

0

0

1

1

0

X

000

lw

x

1

1

1

1

0

0

1

0

0

000

beq

0

1

0

X

0

0

X

1

0

X

001

1

1

0

X

0

X

X

1

1

X

001

halt

x

0

x

X

x

0

X

X

0

X

xxx

 

6.RegisterFile寄存器堆,用来处理指令存储器传过来的指令,具体分为R型指令和I型指令,

R型指令为:

31       26 25       21 20      16 15       11 10        6 5       0

op

rs

rt

rd

sa

func

  6位         5位       5位       5位        5位        6位

I型指令为:

31        26 25         21 20        16 15                       0

op

rs

rt

immediate

6位         5位          5位                16位

然后将寄存器rs、rt有选择地送进ALU进行算术逻辑运算,然后将运算结果送回rt或者rd寄存器中。

7.ALU算术逻辑单元,根据3位ALUOp控制信号来实现不同的运算,zero为运算结果标志,若结果为0输出为1,反之为0.

8.DataMemory数据存储器,来自ALU的运算结果result作为地址输入端口DAddr,来自ControlUnit的控制信号DataMemRW控制数据存储器的读写操作,DataIn接收来自寄存器堆的第二个数据输入,对应sw指令。

9.signExtend用于扩展16位立即数,将其转化为32位立即数,有选择地输入到ALU进行运算(I型指令)。

10.Mux_5目的寄存器选择器:通过控制信号RegOut选择目的寄存器rt或者rd。若是R型指令,则目的寄存器为rd,若是I型指令则为rt寄存器。

11.Mux_32_ALUSrcB扩展立即数选择器:通过控制信号ALUSrcB来判断输入ALU的第二个数据是rt寄存器中的数据还是32位立即数。若为1,则是32位立即数。

12.Mux_32_ALUM2Reg数据写回寄存器选择器:通过控制信号ALUM2Reg来判断写回目的寄存器的数据是来自ALU的运算结果还是来自数据存储器DataMemory的数据。若为1,则是来自DataMemory的数据,且该指令为lw。

13.Mux_32_PCSrcPC地址跳转选择器:通过控制信号PCSrc来判断是否需要跳转,若为0,即不跳转,下一条指令地址为pc+4;若为1,即跳转,下一条指令地址为pc+4+immediate_32*4.

设计接下来对每一个模块进行设计,为了更好地说明,对各个模块涉及的参数详述。

1.pc

参数

功能

PCWre

PC的写使能信号,若PCWre =0,即停机,则PC不更改,若PCWre = 1,PC可更改;

CLK

时钟信号,上升沿触发

Reset

重置信号,若Reset = 1重置

[31:0]out_pc

从pc输出的32位指令地址

[31:0]in_pc

输入pc的32位指令地址,可为pc+4或者pc+4+immediate_32*4

 

2.pcAddFour

参数

功能

[31:0]in_pc

输入的指令地址

[31:0]out_pc

输出指令地址=输入指令地址+4=in_pc+4

 

3.pcAddImmediate

参数

功能

[31:0]in_pc

输入的指令地址,此时已为pc+4

[31:0]offset

32位立即数

[31:0]out_pc

输出的32位指令地址 = 输入的指令地址+立即数*4=pc+4+offset*4

 

4.InstructionsMemory

参数

功能

InsMemRW

读写控制信号,0:读,1:写

[31:0]IAddr

输入的当前指令地址

[31:0]instruction

输出的32位指令

 

5.ControlUnit

参数

功能

[5:0]opcode

6位的指令操作码

zero

ALU的计算结果标志信号。运算结果为0时,zero = 1,不为0时,zero = 0

PCWre

PC是否需要更改的控制信号,0停机不更改

ALUSrcB

判断是否选择扩展立即数,0:非立即数(R型指令),1:立即数(I型指令)

ALUM2Reg

判断写回目的寄存器的数据来源,0:来自ALU的运算结果,1:来自DataMemory中的数据(lw指令)

RegWre

寄存器堆的写使能信号

InsMemRW

InstructionsMemory的读写信号,0:读,1:写

DataMemRW

DataMemory的读写信号,0:读,1:写

ExtSel

是否扩展立即数的控制信号,1扩展

PCSrc

判断PC的地址是否需要跳转,1跳转

RegOut

用于判断R型和I型指令中rt、rd寄存器谁为目的寄存器,R:rd;I:rt。

[2:0]ALUOp

ALU的控制信号,决定ALU的算术逻辑运算

 

6.RegisterFile

参数

功能

RegWre

使能信号,当为1时,in_data写回rd寄存器,否则写回rt寄存器

CLK

时钟信号,上升沿触发

[4:0]rs

rs寄存器编号

[4:0]rt

rt寄存器编号

[4:0]rd

rd寄存器编号

[31:0]in_data

写回目的寄存器的32位结果

[31:0]ReadData1

输出rs寄存器的数据

[31:0]ReadData2

输出rt寄存器的数据

 

7.ALU

参数

功能

[2:0]ALUOp

控制信号,决定ALU进行的算术逻辑运算

zero

运算结果为0,zero为1,否则为0

[31:0]A

第一个操作数A

[31:0]B

第二个操作数B

[31:0]result

32位的运算结果

 

8.DataMemory

参数

功能

CLK

时钟信号,下降沿触发

DataMemRW

控制信号,0:读(lw),1:写(sw)

[31:0]DAddr

将ALU运算结果作为地址输入端口

[31:0]DataIn

来自寄存器堆的第二个数据输入

[31:0]DataOut

32位数据有选择地写回目的寄存器中

 

9.signExtend

参数

功能

ExtSel

控制信号,0:不扩展,1:扩展

[15:0]immediate_16

从指令存储器接收到的32位指令中的16位立即数

[31:0]immediate_32

输出扩展为32位的立即数

 

10.Mux_5

参数

功能

RegOut

控制信号RegOut选择目的寄存器,0:选择rt,1:选择rd

[4:0]A

寄存器rt

[4:0]B

寄存器rd

selected

输出选择结果A or B

 

11.Mux_32

参数

功能

signal

控制信号(ALUSrcB、ALUM2Reg、PCSrc),0:选择A,1:选择B

[31:0]A

输入数据来源A

[31:0]B

输入数据来源B

selected

输出选择结果A or B

 

编写用来测试的汇编程序及相应的机器代码,如下表:

地址(十六进制)

汇编程序

指令代码

op(6)

rs(5)

rt(5)

rd(5)/immediate (16)

0x00000000

addi  $1,$0,4

000001

00000

00001

0000 0000 0000 0100

0x00000004

addi  $2,$0,4     

000001

00000

00010

0000 0000 0000 0100

0x00000008

move  $3,$1,$0

100000

00001

00000

00011

00000

000000

0x0000000C

beq  $1,$2,1(到14)

110000

00001

00010

0000 0000 0000 0001

0x00000010

addi  $4,$0,4

000001

00000

00100

0000 0000 0000 0100

0x00000014

sub  $4,$2,$1

000010

00010

00001

00100

00000

000000

0x00000018

beq  $3,$4,1(不转)

110000

00011

00100

0000 0000 0000 0001

0x0000001C

sw   $2,0($2)

100110

00010

00010

0000 0000 0000 0000

0x00000020

lw   $4,0($2)

100111

00010

00100

0000 0000 0000 0000

0x00000024

ori   $4,$3,1

010000

00011

00100

0000 0000 0000 0001

0x00000028

or   $5,$4,$1

010010

00100

00001

00101

00000

000000

0x0000002C

and  $5,$4,$1 

010001

00100

00001

00101

00000

000000

0x00000030

add  $5,$1,$2  

000000

00001

00010

00101

00000

000000

0x00000034

halt

111111

00000

00000

0000 0000 0000 0000

 

 

 

 

 

 

 

 

 

这里很多截图没放上,但关键部分也已经描述清楚,同时也欢迎下载整个项目代码及我的实验报告。

下载链接:

单周期CPU设计实验报告及项目代码

 

转载请注明原文地址: https://www.6miu.com/read-30118.html

最新回复(0)