Tomasulo Algorithm and Dynamic Branch Prediction: Professor David A. Patterson Computer Science 252 Spring 1998

Lecture 4: Tomasulo Algorithm and Dynamic Branch Prediction
Professor David A. Patterson Computer Science 252 Spring 1998
DAP Spr.98 UCB 1
Review: Summary
Instruction Level Parallelism (ILP) in SW or HW Loop level parallelism is easiest to see SW parallelism dependencies defined for program, hazards if HW cannot resolve SW dependencies/compiler sophistication determine if compiler can unroll loops
Memory dependencies hardest to determine
HW exploiting ILP
Works when cant know dependence at run time Code for one machine runs well on another
Key idea of Scoreboard: Allow instructions behind stall to proceed (Decode => Issue instr & read operands)
Enables out-of-order execution => out-of-order completion DAP Spr.98 UCB 2 ID stage checked both for structural
Page 1
Review: Three Parts of the Scoreboard

1.Instruction statuswhich of 4 steps the instruction is in 2.Functional unit statusIndicates the state of the functional unit (FU). 9 fields for each functional unit
BusyIndicates whether the unit is busy or not OpOperation to perform in the unit (e.g., + or ) FiDestination register Fj, FkSource-register numbers Qj, QkFunctional units producing source registers Fj, Fk Rj, RkFlags indicating when Fj, Fk are ready
3.Register result statusIndicates which functional unit will write each register, if one exists. Blank when no DAP Spr.98 UCB 3 pending instructions will write that register
Review: Scoreboard Example Cycle 3

Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD0 F2 F F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDDF6 F8 F2 Functional unit status Time Name Integer Mult1 Mult2 Add Divide Register result status Issue 1 Read Execution Write operandscompleteResult 2 3
Busy Yes No No No No
Op Load
dest Fi F6
S1 Fj
S2 Fk R2
FU for j FU for k Fj? Qj Qk Rj
Fk? Rk Yes
Clock
3 FU
F0
F2
F4
F6 F8 F10
Integer
F12
...
F30
DAP Spr.98 UCB 4
Issue MULT? No, stall on structural hazard
Page 2

Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD0 F2 F F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDDF6 F8 F2 Functional unit status Time Name Integer 10 Mult1 Mult2 2 Add Divide Register result status Issue 1 5 6 7 8 Read Execution Write operandscompleteResult 2 3 4 6 7 8 9 9
Busy No Yes No Yes Yes
Op Mult Sub Div
dest Fi F0 F8 F10
S1 Fj F2 F6 F0
S2 Fk F4 F2 F6
FU for j FU for k Fj? Qj Qk Rj Yes Yes No
Fk? Rk Yes Yes Yes
Mult1
Clock
9 FU
F0
Mult1
F2
F4
F6 F8 F10
Add Divide
F12
...
F30
DAP Spr.98 UCB 5
Read operands for MULT & SUBD? Issue ADDD?

Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD0 F2 F F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDDF6 F8 F2 Functional unit status Time Name Integer 2 Mult1 Mult2 Add Divide Register result status Issue 1 5 6 7 8 13 Busy No Yes No Yes Yes Read Execution Write operandscompleteResult 2 3 4 6 7 8 9 9 11 12 14 Op Mult Add Div 16 dest Fi F0 F6 F10
S1 Fj F2 F8 F0
S2 Fk F4 F2 F6
FU for j FU for k Fj? Qj Qk Rj Yes Yes No
Fk? Rk Yes Yes Yes
Mult1
Clock
17 FU
F0
Mult1
F2
F4
F6 F8 F10
Add Divide
F12
...
F30
DAP Spr.98 UCB 6
Write result of ADDD? No, WAR hazard
Page 3

Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD0 F2 F F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDDF6 F8 F2 Functional unit status Time Name Integer Mult1 Mult2 Add 0 Divide Register result status Issue 1 5 6 7 8 13 Busy No No No No No Read Execution Write operandscompleteResult 2 3 4 6 7 8 9 19 20 9 11 12 21 61 62 14 16 22 dest S1 S2 Op Fi Fj Fk
Fk? Rk
Clock
62 FU
F0
F2
F4
F6 F8 F10
F12
...
F30
DAP Spr.98 UCB 7
In-order issue; out-of-order execute & commit
Review: Scoreboard Summary

Speedup 1.7 from compiler; 2.5 by hand BUT slow memory (no cache) Limitations of 6600 scoreboard
No forwarding (First write regsiter then read it) Limited to instructions in basic block (small window) Number of functional units(structural hazards) Wait for WAR hazards Prevent WAW hazards
DAP Spr.98 UCB 8
Page 4
Another Dynamic Algorithm: Tomasulo Algorithm

For IBM 360/91 about 3 years after CDC 6600 (1966) Goal: High Performance without special compilers Differences between IBM 360 & CDC 6600 ISA
IBM has only 2 register specifiers/instr vs. 3 in CDC 6600 IBM has 4 FP registers vs. 8 in CDC 6600
Why Study? lead to Alpha 21264, HP 8000, MIPS 10000, Pentium II, PowerPC 604,
DAP Spr.98 UCB 9
Tomasulo Algorithm vs. Scoreboard

Control & buffers distributed with Function Units (FU) vs. centralized in scoreboard;
FU buffers called reservation stations; have pending operands
Registers in instructions replaced by values or pointers to reservation stations(RS); called register renaming ;
avoids WAR, WAW hazards More reservation stations than registers, so can do optimizations compilers cant
Results to FU from RS, not through registers, over Common Data Bus that broadcasts results to all FUs Load and Stores treated as FUs with RSs as well Integer instructions can go past branches, allowing DAP Spr.98 UCB 10 FP ops beyond basic block in FP queue
Page 5
Tomasulo Organization
From memory Load buffers 6 5 4 3 2 1 From instruction unit Floatingpoint operation queue FP registers
Operand buses
Store buffers 3 2 1 To memory 2 1
Operation bus
3 2 1 FP adders
Reservation stations FP multipliers Common data bus (CDB)
DAP Spr.98 UCB 11
FIGURE 4.8 The basic structure of a DLX FP unit using Tomasulo's algorithm.
Reservation Station Components

OpOperation to perform in the unit (e.g., + or ) Vj, VkValue of Source operands
Store buffers has V field, result to be stored
Qj, QkReservation stations producing source registers (value to be written)

Note: No ready flags as in Scoreboard; Qj,Qk=0 => ready
Store buffers only have Qi for RS producing result
BusyIndicates reservation station or FU is busy Register result statusIndicates which functional unit will write each register, if one exists. Blank when no pending instructions that will write that DAP Spr.98 UCB 12 register.
Page 6
Three Stages of Tomasulo Algorithm

1. I s s u e get
instruction from FP Op Queue on operands (EX) execution (WB)
If reservation station free (no structural hazard), control issues instr & sends operands (renames registers).
2. E x e c u t i o n operate
When both operands ready then execute; if not ready, watch Common Data Bus for result
3. W r i t e r e s u l tfinish
Write on Common Data Bus to all awaiting units; mark reservation station available
Normal data bus: data + destination (go to bus) Common data bus: data + source (come from bus)
64 bits of data + 4 bits of Functional Unit source address Write if matches expected Functional Unit (produces result) Does the broadcast DAP Spr.98 UCB 13
Tomasulo Example Cycle 0

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue Execution complete Write Result Load1 Load2 Load3 Busy No No No Address
Busy Op No No No No No
S1 Vj
S2 Vk
RS for j Qj
RS for k Qk
Clock
0 FU
F0
F2
F4
F6
F8
F10
F12 ...
F30
DAP Spr.98 UCB 14
Page 7

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 Execution complete Write Result Load1 Load2 Load3 Busy No Yes No No Address 34+R2
S1 Vj
S2 Vk
RS for j Qj
RS for k Qk
Clock
1 FU
F0
F2
F4
F6
Load1
F8
F10
F12 ...
F30
DAP Spr.98 UCB 15

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 Execution complete Write Result Load1 Load2 Load3 Busy Yes Yes No Address 34+R2 45+R3
S1 Vj
S2 Vk
RS for j Qj
RS for k Qk
Clock
2 FU
F0
F2
Load2
F4
F6
Load1
F8
F10
F12 ...
F30
Note: Unlike 6600, can have multiple loads outstanding

DAP Spr.98 UCB 16
Page 8

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 Execution complete 3 Write Result Load1 Load2 Load3 Busy Yes Yes No Address 34+R2 45+R3
S1 Busy Op Vj No No No Yes MULTD No
S2 Vk
RS for j Qj
RS for k Qk
R(F4)
Load2
Clock
3 FU
F0
Mult1
F2
Load2
F4
F6
Load1
F8
F10
F12 ...
F30
Note: registers names are removed (renamed) in Reservation Stations; MULT issued vs. scoreboard DAP Spr.98 UCB 17 Load1 completing; what is waiting for Load1?

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 Execution complete 3 4 Write Result 4 Load1 Load2 Load3 Busy No Yes No Address 45+R3
S1 Busy Op Vj Yes SUBD M(34+R2) No No Yes MULTD No
S2 Vk
RS for j Qj
RS for k Qk Load2
R(F4)
Load2
Clock
4 FU
F0
Mult1
F2
Load2
F4
F6
M(34+R2)
F8
Add1
F10
F12 ...
F30
Load2 completing; what is waiting for it?
DAP Spr.98 UCB 18
Page 9

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 2 Add1 0 Add2 Add3 10 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Busy Yes No No Yes Yes Issue 1 2 3 4 5 Execution complete 3 4 Write Result 4 5 Load1 Load2 Load3 Busy No No No Address
Op SUBD
S1 Vj M(34+R2)
S2 Vk M(45+R3)
RS for j Qj
RS for k Qk
MULTD M(45+R3) DIVD
R(F4) M(34+R2)
Mult1
Clock
5 FU
F0
Mult1
F2
M(45+R3)
F4
F6
M(34+R2)
F8
Add1
F10
Mult2
F12 ...
F30
DAP Spr.98 UCB 19

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 1 Add1 0 Add2 Add3 9 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Busy Yes Yes No Yes Yes Issue 1 2 3 4 5 6 Execution complete 3 4 Write Result 4 5 Load1 Load2 Load3 Busy No No No Address
S1 Op Vj SUBD M(34+R2) ADDD MULTD M(45+R3) DIVD
S2 Vk M(45+R3) M(45+R3) R(F4) M(34+R2)
RS for j Qj Add1
RS for k Qk
Mult1
Clock
6 FU
F0
Mult1
F2
M(45+R3)
F4
F6
Add2
F8
Add1
F10
Mult2
F12 ...
F30
Issue ADDD here vs. scoreboard?
DAP Spr.98 UCB 20
Page 10

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 8 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Busy Yes Yes No Yes Yes Issue 1 2 3 4 5 6 Execution complete 3 4 7 Write Result 4 5 Load1 Load2 Load3 Busy No No No Address
S1 Op Vj SUBD M(34+R2) ADDD MULTD M(45+R3) DIVD
S2 Vk M(45+R3) M(45+R3) R(F4) M(34+R2)
RS for j Qj Add1
RS for k Qk
Mult1
Clock
7 FU
F0
Mult1
F2
M(45+R3)
F4
F6
Add2
F8
Add1
F10
Mult2
F12 ...
F30
Add1 completing; what is waiting for it?
DAP Spr.98 UCB 21

Instruction status Execution Instruction j k Issue complete LD F6 34+ R2 1 3 LD F2 45+ R3 2 4 MULTD F0 F2 F4 3 SUBDF8 F6 F2 4 7 DIVD F10 F0 F6 5 ADDDF6 F8 F2 6 Reservation Stations S1 Time Name Busy Op Vj 0 Add1 No 2 Add2 Yes ADDD M()-M() 0 Add3 No 7 Mult1 Yes MULTDM(45+R3) 0 Mult2 Yes DIVD Register result status Write Result 4 5 8 Load1 Load2 Load3 Busy No No No Address
S2 Vk M(45+R3) R(F4) M(34+R2)
RS for j Qj
RS for k Qk
Mult1
Clock
8 FU
F0
F2
F4
F6
Add2
F8
F10 F12 ...
F30
Mult1 M(45+R3)
M()-M() Mult2
DAP Spr.98 UCB 22
Page 11

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 1 Add2 0 Add3 6 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Busy No Yes No Yes Yes Issue 1 2 3 4 5 6 Op Execution complete 3 4 7 Write Result 4 5 8 Load1 Load2 Load3 Busy No No No Address
S1 Vj
S2 Vk M(45+R3) R(F4) M(34+R2)
RS for j Qj
RS for k Qk
ADDD M()M() MULTD M(45+R3) DIVD
Mult1
Clock
9 FU
F0
Mult1
F2
M(45+R3)
F4
F6
Add2
F8
F10
F12 ...
F30
M()M() Mult2
DAP Spr.98 UCB 23

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 5 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Busy No Yes No Yes Yes Issue 1 2 3 4 5 6 Op Execution complete 3 4 7 10 S1 Vj S2 Vk M(45+R3) R(F4) M(34+R2) RS for j Qj RS for k Qk Write Result 4 5 8 Load1 Load2 Load3 Busy No No No Address
ADDD M()M() MULTD M(45+R3) DIVD
Mult1
Clock
10 FU
F0
Mult1
F2
M(45+R3)
F4
F6
Add2
F8
F10
F12 ...
F30
M()M() Mult2
Add2 completing; what is waiting for it?
DAP Spr.98 UCB 24
Page 12

Instruction status Execution Instruction j k Issue complete LD F6 34+ R2 1 3 LD F2 45+ R3 2 4 MULTD F0 F2 F4 3 SUBDF8 F6 F2 4 7 DIVD F10 F0 F6 5 ADDDF6 F8 F2 6 10 Reservation Stations S1 Time Name Busy Op Vj 0 Add1 No 0 Add2 No 0 Add3 No 4 Mult1 Yes MULTDM(45+R3) 0 Mult2 Yes DIVD Register result status Write Result 4 5 8 11 S2 Vk RS for j Qj RS for k Qk Load1 Load2 Load3 Busy No No No Address
R(F4) M(34+R2)
Mult1
Clock
11 FU
F0
F2
F4
F6
(M-M)+M()
F8
F10 F12 ...
F30
Mult1 M(45+R3)
M()M() Mult2
Write result of ADDD here vs. scoreboard?
DAP Spr.98 UCB 25

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 3 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 5 6 Execution complete 3 4 6 10 S1 Vj S2 Vk Write Result 4 5 7 11 RS for j Qj RS for k Qk Load1 Load2 Load3 Busy No No No Address
Busy Op No No No Yes MULTD M(45+R3) Yes DIVD
R(F4) M(34+R2)
Mult1
Clock
12 FU
F0
Mult1
F2
M(45+R3)
F4
F6
(M-M)+M()
F8
F10
F12 ...
F30
M()M() Mult2
Note: all quick instructions complete already
DAP Spr.98 UCB 26
Page 13

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 2 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 5 6 Execution complete 3 4 7 10 S1 Vj S2 Vk Write Result 4 5 8 11 RS for j Qj RS for k Qk Load1 Load2 Load3 Busy No No No Address
R(F4) M(34+R2)
Mult1
Clock
13 FU
F0
Mult1
F2
M(45+R3)
F4
F6
(MM)+M()
F8
F10
F12 ...
F30
M()M() Mult2
DAP Spr.98 UCB 27

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 1 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 5 6 Execution complete 3 4 7 10 S1 Vj S2 Vk Write Result 4 5 8 11 RS for j Qj RS for k Qk Load1 Load2 Load3 Busy No No No Address
R(F4) M(34+R2)
Mult1
Clock
14 FU
F0
Mult1
F2
M(45+R3)
F4
F6
(MM)+M()
F8
F10
F12 ...
F30
M()M() Mult2
DAP Spr.98 UCB 28
Page 14

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 5 6 Execution complete 3 4 15 7 10 S1 Vj S2 Vk Write Result 4 5 8 11 RS for j Qj RS for k Qk Load1 Load2 Load3 Busy No No No Address
R(F4) M(34+R2)
Mult1
Clock
15 FU
F0
Mult1
F2
M(45+R3)
F4
F6
(MM)+M()
F8
F10
F12 ...
F30
M()M() Mult2
Mult1 completing; what is waiting for it?
DAP Spr.98 UCB 29

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 40 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 5 6 Execution complete 3 4 15 7 10 S1 Vj S2 Vk Write Result 4 5 16 8 11 RS for j Qj RS for k Qk Load1 Load2 Load3 Busy No No No Address
Busy Op No No No No Yes DIVD
M*F4
M(34+R2)
Clock
16 FU
F0
M*F4
F2
M(45+R3)
F4
F6
(MM)+M()
F8
F10
F12 ...
F30
M()M() Mult2
Note: Just waiting for divide
DAP Spr.98 UCB 30
Page 15

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 1 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 5 6 Execution complete 3 4 15 7 10 S1 Vj S2 Vk Write Result 4 5 16 8 11 RS for j Qj RS for k Qk Load1 Load2 Load3 Busy No No No Address
M*F4
M(34+R2)
Clock
55 FU
F0
M*F4
F2
M(45+R3)
F4
F6
(MM)+M()
F8
F10
F12 ...
F30
M()M() Mult2
DAP Spr.98 UCB 31

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 5 6 Execution complete 3 4 15 7 56 10 S1 Vj Write Result 4 5 16 8 11 S2 Vk RS for j Qj RS for k Qk Load1 Load2 Load3 Busy No No No Address
M*F4
M(34+R2)
Clock
56 FU
F0
M*F4
F2
M(45+R3)
F4
F6
(MM)+M()
F8
F10
F12 ...
F30
M()M() Mult2
Mult 2 completing; what is waiting for it?
DAP Spr.98 UCB 32
Page 16

Instruction status Instruction j LD F6 34+ LD F2 45+ MULTD F0 F2 SUBD F8 F6 DIVD F10 F0 ADDD F6 F8 Reservation Stations Time Name 0 Add1 0 Add2 Add3 0 Mult1 0 Mult2 Register result status k R2 R3 F4 F2 F6 F2 Issue 1 2 3 4 5 6 Execution complete 3 4 15 7 56 10 S1 Vj Write Result 4 5 16 8 57 11 S2 Vk RS for j Qj Load1 Load2 Load3 Busy No No No Address
RS for k Qk
Clock
57 FU
F0
M*F4
F2
M(45+R3)
F4
F6
(MM)+M()
F8
F10
F12 ...
F30
M()M() M*F4/M
Again, in-oder issue, out-of-order execution, completion
DAP Spr.98 UCB 33
Compare to Scoreboard Cycle 62

Instruction status Instruction j k LD F6 34+ R2 LD F2 45+ R3 MULTD0 F2 F F4 SUBD F8 F6 F2 DIVD F10 F0 F6 ADDDF6 F8 F2 Functional unit status Time Name Integer Mult1 Mult2 Add 0 Divide Register result status Issue 1 5 6 7 8 13 Busy No No No No No Read Execution Write operandscompleteResult 2 3 4 6 7 8 9 19 20 9 11 12 21 61 62 14 16 22 dest S1 S2 Op Fi Fj Fk
Fk? Rk
Clock
62 FU
F0
F2
F4
F6 F8 F10
F12
...
F30
Why takes longer on Scoreboard/6600?
DAP Spr.98 UCB 34
Page 17
Tomasulo v. Scoreboard (IBM 360/91 v. CDC 6600)

Pipelined Functional Units Multiple Functional Units (6 load, 3 store, 3 +, 2 x/) (1 load/store, 1 + , 2 x, 1 ) window size: 14 instructions 5 instructions No issue on structural hazard same WAR: renaming avoids stall completion WAW: renaming avoids stall completion Broadcast results from FU Write/read registers Control: reservation stations central scoreboard
DAP Spr.98 UCB 35
Tomasulo Drawbacks
Complexity
delays of 360/91, MIPS 10000, IBM 620?
Many associative stores (CDB) at high speed Performance limited by Common Data Bus
Multiple CDBs => more FU logic for parallel assoc stores
DAP Spr.98 UCB 36
Page 18
Tomasulo Loop Example

Loop: LD MULTD SD SUBI BNEZ F0 F4 F4 R1 R1 0 F0 0 R1 Loop R1 F2 R1 #8
Assume Multiply takes 4 clocks Assume first load takes 8 clocks (cache miss?), second load takes 4 clocks (hit) To be clear, will show clocks for SUBI, BNEZ DAP Spr.98 UCB 37 Reality, integer instructions ahead
Loop Example Cycle 0

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 0 80 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue Execution Write complete Result Busy Address Load1 No Load2 No Load3 No Qi Store1 No Store2 No Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 SUBI R1 R1 #8 BNEZ R1 Loop
S1 Vj
S2 Vk
F0
Qi
F2
F4
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 38
Page 19

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 1 80 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 Execution Write complete Result Busy Address Load1 Yes 80 Load2 No Load3 No Qi Store1 No Store2 No Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 SUBI R1 R1 #8 BNEZ R1 Loop
S1 Vj
S2 Vk
F0
Qi Load1
F2
F4
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 39

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 2 80 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 Execution Write complete Result Busy Address Load1 Yes 80 Load2 No Load3 No Qi Store1 No Store2 No Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load1 SUBI R1 R1 #8 BNEZ R1 Loop
Busy Op No No No Yes MULTD No
S1 Vj
S2 Vk
R(F2)
F0
Qi Load1
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 40
Page 20

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 3 80 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 Execution Write complete Result Busy Address Load1 Yes 80 Load2 No Load3 No Qi Store1 Yes 80 Mult1 Store2 No Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load1 SUBI R1 R1 #8 BNEZ R1 Loop
S1 Vj
S2 Vk
R(F2)
F0
Qi Load1
F2
F4
Mult1
F6
F8
F10 F12 ... F30
Note: MULT1 has no registers names in RS
DAP Spr.98 UCB 41

S1 Vj
S2 Vk
R(F2)
F0
Qi Load1
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 42
Page 21

S1 Vj
S2 Vk
R(F2)
F0
Qi Load1
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 43

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 6 72 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 Execution Write complete Result Busy Address Load1 Yes 80 Load2 Yes 72 Load3 No Qi Store1 Yes 80 Mult1 Store2 No Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load1 SUBI R1 R1 #8 BNEZ R1 Loop
S1 Vj
S2 Vk
R(F2)
F0
Qi Load2
F2
F4
Mult1
F6
F8
F10 F12 ... F30
Note: F0 never sees Load1 result
DAP Spr.98 UCB 44
Page 22

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 7 72 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 S1 Vj Execution Write complete Result Busy Address Load1 Yes 80 Load2 Yes 72 Load3 No Qi Store1 Yes 80 Mult1 Store2 No Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load1 SUBI R1 R1 #8 Load2 BNEZ R1 Loop
Busy Op No No No Yes MULTD Yes MULTD
S2 Vk
R(F2) R(F2)
F0
Qi Load2
F2
F4
Mult2
F6
F8
F10 F12 ... F30
Note: MULT2 has no registers names in RS
DAP Spr.98 UCB 45

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 8 72 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result Busy Address Load1 Yes 80 Load2 Yes 72 Load3 No Qi Store1 Yes 80 Mult1 Store2 Yes 72 Mult2 Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load1 SUBI R1 R1 #8 Load2 BNEZ R1 Loop
S2 Vk
R(F2) R(F2)
F0
Qi Load2
F2
F4
Mult2
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 46
Page 23

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 9 64 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 Busy Address Load1 Yes 80 Load2 Yes 72 Load3 No Qi Store1 Yes 80 Mult1 Store2 Yes 72 Mult2 Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load1 SUBI R1 R1 #8 Load2 BNEZ R1 Loop
S2 Vk
R(F2) R(F2)
F0
Qi Load2
F2
F4
Mult2
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 47

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 4 Mult1 0 Mult2 Register result status Clock R1 10 64 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 10 Busy Address Load1 No Load2 Yes 72 Load3 No Qi Store1 Yes 80 Mult1 Store2 Yes 72 Mult2 Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 SUBI R1 R1 #8 Load2 BNEZ R1 Loop
10
S2 Vk
M(80) R(F2) R(F2)
F0
Qi Load2
F2
F4
Mult2
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 48
Page 24

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 3 Mult1 4 Mult2 Register result status Clock R1 11 64 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 10 Busy Address Load1 No Load2 No Load3 Yes 64 Qi 11 Store1 Yes 80 Mult1 Store2 Yes 72 Mult2 Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 SUBI R1 R1 #8 BNEZ R1 Loop
10
S2 Vk
M(80) R(F2) M(72) R(F2)
F0
Qi Load3
F2
F4
Mult2
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 49

10
S2 Vk
M(80) R(F2) M(72) R(F2)
F0
Qi Load3
F2
F4
Mult2
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 50
Page 25

10
S2 Vk
M(80) R(F2) M(72) R(F2)
F0
Qi Load3
F2
F4
Mult2
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 51

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 1 Mult2 Register result status Clock R1 14 64 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 10 14 10 Busy Address Load1 No Load2 No Load3 Yes 64 Qi 11 Store1 Yes 80 Mult1 Store2 Yes 72 Mult2 Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 SUBI R1 R1 #8 BNEZ R1 Loop
S2 Vk
M(80) R(F2) M(72) R(F2)
F0
Qi Load3
F2
F4
Mult2
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 52
Page 26

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 15 64 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 10 14 15 10 15 S2 Vk Busy Address Load1 No Load2 No Load3 Yes 64 Qi 11 Store1 Yes 80 M(80)*R(F2) Store2 Yes 72 Mult2 Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 SUBI R1 R1 #8 BNEZ R1 Loop
Busy Op No No No No Yes MULTD
M(72) R(F2)
F0
Qi Load3
F2
F4
Mult2
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 53

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 16 64 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 10 14 15 10 15 S2 Vk Busy Address Load1 No Load2 No Load3 Yes 64 Qi 11 Store1 Yes 80 M(80)*R(F2) 16 Store2 Yes 72 M(72)*R(72) Store3 No RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load3 SUBI R1 R1 #8 BNEZ R1 Loop
R(F2)
F0
Qi Load3
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 54
Page 27

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 17 64 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 10 14 15 10 15 S2 Vk Busy Address Load1 No Load2 No Load3 Yes 64 Qi 11 Store1 Yes 80 M(80)*R(F2) 16 Store2 Yes 72 M(72)*R(72) Store3 Yes 64 Mult1 RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load3 SUBI R1 R1 #8 BNEZ R1 Loop
R(F2)
F0
Qi Load3
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 55

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 18 56 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 10 14 15 18 10 11 15 16 S2 Vk Busy Address Load1 No Load2 No Load3 Yes 64 Qi Store1 Yes 80 M(80)*R(F2) Store2 Yes 72 M(72)*R(72) Store3 Yes 64 Mult1 RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load3 SUBI R1 R1 #8 BNEZ R1 Loop
R(F2)
F0
Qi Load3
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 56
Page 28

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 19 56 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution Write complete Result 9 10 14 15 18 19 10 11 15 16 S2 Vk Busy Address Load1 No Load2 No Load3 Yes 64 Qi Store1 No Store2 Yes 72 M(72)*R(72) Store3 Yes 64 Mult1 RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load3 SUBI R1 R1 #8 BNEZ R1 Loop
R(F2)
F0
Qi Load3
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 57

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 20 56 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution complete 9 14 18 10 15 20 S2 Vk Write Result 10 15 19 11 16 Busy Address Load1 No Load2 No Load3 Yes 64 Qi Store1 No Store2 Yes 72 M(72)*R(72) Store3 Yes 64 Mult1 RS for j RS for k Qj Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load3 SUBI R1 R1 #8 BNEZ R1 Loop
R(F2)
F0
Qi Load3
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 58
Page 29

Instruction status Instruction j LD F0 0 MULTD4 F F0 SD F4 0 LD F0 0 MULTD4 F F0 SD F4 0 Reservation Stations Time Name 0 Add1 0 Add2 0 Add3 0 Mult1 0 Mult2 Register result status Clock R1 21 56 k R1 F2 R1 R1 F2 R1 iteration 1 1 1 2 2 2 Issue 1 2 3 6 7 8 S1 Vj Execution complete 9 14 18 10 15 20 S2 Vk Write Result 10 15 19 11 16 21 RS for Qj Busy Address Load1 No Load2 No Load3 Yes 64 Qi Store1 No Store2 No Store3 Yes 64 Mult1 j RS for k Qk Code: LD F0 0 R1 MULTD4 F0 F2 F SD F4 0 R1 Load3 SUBI R1 R1 #8 BNEZ R1 Loop
R(F2)
F0
Qi Load3
F2
F4
Mult1
F6
F8
F10 F12 ... F30
DAP Spr.98 UCB 59
Tomasulo Summary
Reservations stations: renaming to larger set of registers + buffering source operands
Prevents registers as bottleneck Avoids WAR, WAW hazards of Scoreboard Allows loop unrolling in HW
Not limited to basic blocks (integer units gets ahead, beyond branches) Helps cache misses as well Lasting Contributions
Dynamic scheduling Register renaming Load/store disambiguation
360/91 descendants are Pentium II; PowerPC 604; MIPS R10000; HP-PA 8000; Alpha 21264 DAP Spr.98 UCB 60
Page 30

Tomasulo Algorithm and Dynamic Branch Prediction: Professor David A. Patterson Computer Science 252 Spring 1998

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tomasulo Algorithm and Dynamic Branch Prediction: Professor David A. Patterson Computer Science 252 Spring 1998

Uploaded by

Copyright:

Available Formats

Lecture 4: Tomasulo Algorithm and Dynamic Branch Prediction

Professor David A. Patterson Computer Science 252 Spring 1998

DAP Spr.98 UCB 1

Review: Three Parts of the Scoreboard

Review: Scoreboard Example Cycle 3

FU for j FU for k Fj? Qj Qk Rj

Issue MULT? No, stall on structural hazard

Review: Scoreboard Example Cycle 9

Busy No Yes No Yes Yes

Op Mult Sub Div

FU for j FU for k Fj? Qj Qk Rj Yes Yes No

Fk? Rk Yes Yes Yes

Read operands for MULT & SUBD? Issue ADDD?

Review: Scoreboard Example Cycle 17

FU for j FU for k Fj? Qj Qk Rj Yes Yes No

Fk? Rk Yes Yes Yes

Write result of ADDD? No, WAR hazard

Review: Scoreboard Example Cycle 62

FU for j FU for k Fj? Qj Qk Rj

In-order issue; out-of-order execute & commit

Review: Scoreboard Summary

DAP Spr.98 UCB 8

Another Dynamic Algorithm: Tomasulo Algorithm

DAP Spr.98 UCB 9

Tomasulo Algorithm vs. Scoreboard

Store buffers 3 2 1 To memory 2 1

Reservation stations FP multipliers Common data bus (CDB)

DAP Spr.98 UCB 11

Reservation Station Components

Qj, QkReservation stations producing source registers (value to be written)

Three Stages of Tomasulo Algorithm

instruction from FP Op Queue on operands (EX) execution (WB)

Tomasulo Example Cycle 0

DAP Spr.98 UCB 14

Tomasulo Example Cycle 1

DAP Spr.98 UCB 15

Tomasulo Example Cycle 2

Note: Unlike 6600, can have multiple loads outstanding

Tomasulo Example Cycle 3

S1 Busy Op Vj No No No Yes MULTD No

Tomasulo Example Cycle 4

S1 Busy Op Vj Yes SUBD M(34+R2) No No Yes MULTD No

Load2 completing; what is waiting for it?

DAP Spr.98 UCB 18

Tomasulo Example Cycle 5

MULTD M(45+R3) DIVD

DAP Spr.98 UCB 19

Tomasulo Example Cycle 6

S1 Op Vj SUBD M(34+R2) ADDD MULTD M(45+R3) DIVD

S2 Vk M(45+R3) M(45+R3) R(F4) M(34+R2)

Issue ADDD here vs. scoreboard?

DAP Spr.98 UCB 20

Tomasulo Example Cycle 7

S1 Op Vj SUBD M(34+R2) ADDD MULTD M(45+R3) DIVD

S2 Vk M(45+R3) M(45+R3) R(F4) M(34+R2)

Add1 completing; what is waiting for it?

DAP Spr.98 UCB 21

Tomasulo Example Cycle 8

S2 Vk M(45+R3) R(F4) M(34+R2)

F10 F12 ...

DAP Spr.98 UCB 22

Tomasulo Example Cycle 9

S2 Vk M(45+R3) R(F4) M(34+R2)