Professional Documents
Culture Documents
Cap9 PDF
Cap9 PDF
problemelor
Capitolul 8
2017-2018
Inmultirea a doua matrici
• Se considera doua matrici 𝐴 si 𝐵 de dimensiuni 𝑛 × 𝑛 si se cere
determinarea matricii produs 𝐶 = 𝐴 × 𝐵 unde elementele lui 𝐶
se determina cu:
𝑛−1
2017-2018
Clasa Worker
class Worker extends Thread {
int row, col;
Ce element
Worker(int row, int col) { calculeaza acest fir
this.row = row; this.col = col;
}
public void run() {
double dotProduct = 0.0;
System.out.println("Worker["+row+"]["+col+"]");
for (int i = 0; i < n; i++) {
dotProduct += a[row][i] * b[i][col];
}
c[row][col] = dotProduct;
}
}
Calculul
propriuzis
2017-2018
Clasa MMThread I
public class MMThread {
double[][] a, b, c;
int n;
public MMThread(double[][] a, double[][] b) {
n = a.length;
this.a = a;
this.b = b;
this.c = new double[n][n]; Creaza maatricea
} de fire
void multiply() {
Worker[][] worker = new Worker[n][n];
// create one thread per matrix entry
for (int row = 0; row < n; row++) {
for (int col = 0; col < n; col++) {
worker[row][col] = new Worker(row,col);
}
}
2017-2018
Clasa MMThread II
Porneste firele
// start the threads
for (int row = 0; row < n; row++) {
for (int col = 0; col < n; col++) {
worker[row][col].start();
}
}
// wait for them to finish
for (int row = 0; row < n; row++) {
for (int col = 0; col < n; col++) {
try {
worker[row][col].join();
} catch (InterruptedException ex) {
ex.printStackTrace(); Asteapta sa se
} termine
}
}
}
} 2017-2018
Clasa MMThreadTest
import org.junit.Test;
import org.junit.Assert;
public class MMThreadTest {
public MMThreadTest() { }
@Test public void testRun() {
System.out.println("run");
double[][] a = {{1, 0, 0}, {0, 1, 0}, {0, 0, 1}};
double[][] b = {{1, 0, 0}, {0, 1, 0}, {0, 0, 1}};
MMThread instance = new MMThread(a,b);
instance.multiply();
double[][] c = instance.c;
int n = a.length;
for (int i = 0; i < n; i++) {
for (int j = 0; j < n; j++) {
Assert.assertEquals(new Double(c[i][j]),
new Double(a[i][j]));
}
}
}
} 2017-2018
Dezavantaje ale abordarii naive
• Aparent solutia naiva maximizeaza concurenta.
• Pentru matrici mari se creaza foarte multe fire.
• Gestiunea firelor presupune costuri suplimentare:
– Memorie suplimentara pentru fiecare fir in parte
– Efort de calcul suplimentar pentru:
• Crearea
• Planificarea
• Distrugerea firelor
– Raportul munca utila / effort suplimentar este scazut
2017-2018
Rezerve de fire = abstractizare
2017-2018
Sarcini de lucru in Java
• O sarcina de lucru ce NU intoarce nici un rezultat se
reprezinta printr-un obiect Runnable.
2017-2018
Exemple de executori
• Spre exemplu, putem defini doua modalitati simple de
alocare a sarcinilor pe fire de executie:
2017-2018
Politica optimala
2017-2018
Exemple de politici simple de executie
• Politica de a crea un nou fir pentru fiecare sarcina alocata, de a aloca
imediat sarcina acestui fir si apoi a-l lansa in executie se poate
implementa astfel:
2017-2018
Executia asincrona a sarcinilor
• Orice sarcina ce trebuie trimisa spre executie la un
executor are un ciclu de viata ce contine fazele:
– creare,
– trimitere,
– startare,
– terminare.
2017-2018
Interfata Future<T>
• Pentru reprezentarea ciclului de viata al sarcinii se foloseste un
obiect Future<T>. Interfata Future este definita in pachetul
java.util.concurrent astfel:
Matrix[][] split() {
Matrix[][] result = new Matrix[2][2];
int newDim = dim / 2;
result[0][0] = new Matrix(data, rowDisplace, colDisplace,
newDim);
result[0][1] = new Matrix(data, rowDisplace,
colDisplace + newDim, newDim);
result[1][0] = new Matrix(data, rowDisplace + newDim,
colDisplace, newDim);
result[1][1] = new Matrix(data, rowDisplace + newDim,
colDisplace + newDim, newDim);
return result;
}
}
2017-2018
Realizarea adunarii
• Task-ul de adunare AddTask primeste matricile: operanzii a si b,
respectiv rezultatul c. Fie n dimensiunea operanzilor.
• Daca n = 1 atunci matricile sunt scalari si adunarea este scalara.
• Daca n > 1 atunci se descompun matricile aa, bb, si cc.
• Se realizeaza apoi adunarea concurent, pe fiecare bloc, folosind
task-ul AddTask, pentru fiecare bloc preluat din aa, bb si cc.
• Pentru realizarea calculelor se foloseste o rezerva de fire.
• AddTask este o clasa separata ce implementeaza interfata
Runnable.
• Obtinerea rezultatului foloseste o matrice de obiecte Future<?>.
• Matricea este creata separat, apoi este initializata in urma
operatiei submit() de trimitere a sarcinilor spre executie.
Asteptarea terminarii calculelor se realizeaza invocand metoda
get() a clasei Future. 2017-2018
Clasa MatrixTask
import java.util.concurrent.*;
2017-2018
Clasa AddTask
static class AddTask implements Runnable {
Matrix a, b, c;
public AddTask(Matrix a, Matrix b, Matrix c) {
this.a = a; this.b = b; this.c = c;
}
public void run() {
try {
int n = a.getDim();
if (n == 1) {
c.set(0, 0, a.get(0,0) + b.get(0,0));
} else {
Matrix[][] aa = a.split(), bb = b.split(), cc = c.split();
Future<?>[][] future = (Future<?>[][]) new Future[2][2];
for (int i = 0; i < 2; i++)
for (int j = 0; j < 2; j++)
future[i][j] = exec.submit(new AddTask(aa[i][j],
bb[i][j], cc[i][j]));
for (int i = 0; i < 2; i++)
for (int j = 0; j < 2; j++) future[i][j].get();
}
} catch (Exception ex) { ex.printStackTrace(); }
}
}
2017-2018
Inmultirea matricilor folosind divide-et-impera
• Inmultirea de matrici 𝐶 = 𝐴 × 𝐵 se descompune astfel:
2017-2018
Analiza operatiilor concurente cu matrici: cazul ideal
• Fie 𝐴𝑁 𝑛 numarul de pasi necesar adunarii a doua matrici
𝑛 × 𝑛 pe 𝑁 procesoare.
𝑛
𝐴1 𝑛 = 4 × 𝐴1 + Θ 1 = Θ(𝑛2 ) De ce?
𝑛 2
𝐴∞ 𝑛 = 𝐴∞ + Θ 1 = Θ(log 𝑛) De ce?
2
2017-2018
Analiza concurentei pe sisteme multiprocesor reale I
• Sistemele de operare actuale permit descompunerea unei aplicatii intr-o
multime de fire la nivel de aplicatie / utilizator.
• Nucleul sistemului de operare dispune de un planficator care gestioneaza
alocarea si executia firelor pe procesoarele fizice ale sistemului.
• Din punctul de vedere al dezvoltatorului de programe, o aplicatie
concurenta este conforma unui model pe trei niveluri:
– Nivelul logic, la care aplicatia este descompusa intr-o multime de sarcini (engl.task)
– Nivelul intermediar, la care un planificator (la nivel de utilizator) planifica si aloca
aceste sarcini pe un numar finit de fire la nivel de utilizator
– Nivelul fizic, la care planificatorul din nucleul sistemului de operare planifica si
aloca firele utilizator pe procesoarele sistemului
• La un moment dat, pe un sistem cu N procesoare, un numar 0 ≤ 𝑛𝑖 ≤ 𝑁
fire utilizator sunt alocate de nucleul SO pentru a executa concurent cate
un pas de calcul. Numarul mediu de procesoare disponibile pentru a
executa concurent cate un pas de calcul la fiecare moment de timp pe un
interval de 𝑇 pasi este:
1 𝑇−1
𝑁𝐴 = ×
𝑇 𝑖=0 𝑛𝑖 . 2017-2018
Analiza concurentei pe sisteme multiprocesor reale II
• Se urmareste obtinerea unei accelerari avand ca valoare media 𝑁𝐴 ≤ 𝑁.
• O planificare este greedy dnd numarul de pasi executati la fiecare moment
de timp 𝑖 este egal cu minimul dintre numarul de procesoare disponibile
𝑛𝑖 si numarul de noduri gata de executie (noduri al caror pas curent este
gata de executie) din graful programului.
• Teorema. Orice program concurent avand efortul de calcul 𝑇1 , lungimea
caii critice 𝑇∞ ce are la dispozitie 𝑁 fire utilizator se va executa pe orice
planificare greedy intr-un timp:
𝑇1 𝑇∞ × 𝑁−1
𝑇≤ +
𝑁𝐴 𝑁𝐴
• Fiecarui procesor alocat i se asociaza un jeton virtual. In total se vor aloca
pentru executia greedy a programului un numar de 𝑇−1 𝑖=0 𝑛𝑖 jetoane. La
fiecare pas cel putin un jeton corespunde unui pas executabil. Numarul
total de jetoane executabile alocate este 𝑇1 . Numarul total de jetoane
alocate unor fire ce nu sunt imediat executabile este cel mult lungimea
caii critice 𝑇∞ inmultit cu numarul maxim de procesoare disponibile
(excluzandu-l pe cel alocat cel putin unui fir imediat executabil), adica
𝑁 − 1. De aici teorema rezulta in mod trivial. 2017-2018
Discutie
• In cazul optim avem 𝑁𝐴 = 𝑁. Rezulta ca:
𝑇1
𝑇 ≤ + 𝑇∞
𝑁
• Exista urmatorul argument intuitiv. Daca in fiecare pas de calcul sunt
disponibile 𝑁 procesoare, atunci cei 𝑇 pasi de timp cuprind:
𝑇
– Pasi completi, cand se folosesc toate procesoarele. Sunt cel mult 1 astfel de pasi
𝑁
– Pasi incompleti, cand nu se folosesc toate procesoarele, dar se foloseste sigur cel
putin 1 procesor si lungimea caii critice se reduce cu 1 (avand o strategie greedy)
• De aici, adunand cele doua valori, marginea superioara a lui 𝑇 rezulta in
mod evident.
𝑇
• Observatie. Marginea superioara 1 + 𝑇∞ a oricarei planificari greedy este
𝑁
cel mult egala cu dublul timpului optim de planificare a executiei
programului pe 𝑁 procesoare.
𝑇
• Fie 𝑇𝑁∗ timpul optim. Avem 𝑇𝑁∗ ≥ 1 si 𝑇𝑁∗ ≥ 𝑇∞ , de unde concluzia
𝑁
corolarului decurge trivial.
2017-2018
Distributia sarcinilor
• Pentru obtinerea unei accelerari convenabile firele trebuie
planificate a.i. sa lucreze (sa fie ocupate) in permanenta,
planificarea rezultata fiind astfel cat mai “greedy” posibil.
• Este necesara o strategie (algoritm) de distributie a sarcinilor
(engl. work distribution algorithm) care sa lucreze eficient
pentru alocarea sarcinilor gata de executie firelor disponibile.
• Exista doua mari strategii:
– Pasarea sarcinilor (engl. work dealing). Un fir supraincarcat incearca
sa “paseze” sarcinile suplimentare altor fire mai putin incarcate.
Dezavantajul este ca daca toate firele sunt supraincarcate se va
consuma fara rost un efort suplimentar de calcul pentru redistribuire.
– Preluarea sarcinilor (engl. work stealing). Un fir subincarcat preia
(“fura”) sarcini de la alte fire mai incarcate. Metoda are avantajul ca
firele supraincarcate nu vor consuma timp in mod inutil pentru
redistribuirea sarcinilor. 2017-2018
Preluarea sarcinilor
• Pentru implementarea acestei strategii fiecare fir va gestiona o coada cu
doua capete (engl. double-ended queue – dequeue) numita DEQueue ce
ofera metodele:
– pushBottom(), popBottom() pentru adaugarea si extragerea unei sarcini de la capatul
din spate al cozii
– popTop() pentru extragerea unei sarcini de la capatul din fata al cozii.
• Daca un fir necesita o sarcina atunci o preia cu popBottom() din propria
coada.
• Daca un fir descopera ca nu mai are sarcini, coada sa fiind goala, atunci el
alege la intamplare un alt fir “victima” si apeleaza metoda popTop() a
cozii acestui fir in speranta de a prelua (“fura”) o sarcina de acolo.
• Observatii si intrebari:
– Clasa DEQueue nu necesita metoda pushTop(). De ce?
– De ce nu se foloseste o coada simpla in locul dequeue?
– Cand se apeleaza metoda pushBottom()?
2017-2018
Clasa WorkStealingThread
import java.util.Random;
public class WorkStealingThread {
DEQueue[] queue;
int me;
Random random;
public WorkStealingThread(DEQueue[] queue) {
this.queue = queue; this.random = new Random();
}
public void run() {
int me = ThreadID.get();
Runnable task = queue[me].popBottom(); // pop first task
while (true) {
while (task != null) { // if there is a task
task.run(); // execute it and then
task = queue[me].popBottom(); // pop the next task
}
while (task == null) { // steal a task
Thread.yield();
int victim = random.nextInt() % queue.length;
if (!queue[victim].isEmpty()) {
task = queue[victim].popTop();
}
}
} 2017-2018
Observatii asupra clasei WorkStealingThread
• Clasa descrie o posibilitate de a implementa un fir intr-un executor bazat
pe tehnica preluarii sarcinilor.
• Toate firele partajeaza un vector de DEQueue, cate o coada pentru fiecare
fir in parte.
• Implementarea are urmatoarea problema: procesul de preluare a sarcinilor
continua la infinit chiar si daca cozile firelor sunt goale.
• Observatie. Incepand cu Java 1.8, exista deja o clasa executor care
implementeaza tehnica preluarii sarcinilor:
public static ExecutorService newWorkStealingPool(int parallelism)
Creaza o rezerva de fire ce foloseste tehnica preluarii sarcinilor astfel
incat sa mentina un nivel de paralelism impus. Nivelul de paralelism
reprezinta numarul maxim fire care pot fi angajate sau potential
angajabile in executia sarcinilor. Daca parallelism lipseste atunci se
foloseste un nivel de paralelism implicit corespunzator numarului de
procesoare disponibile.
2017-2018
Carte de concurenta in Java
• Brian Goetz, Tim Peierls, Joshua Bloch, Joseph Bowbeer, David Holmes,
Doug Lea, Java Concurrency in Practice,, Addison-Wesley
Professional, 2006
http://jcip.net/
2017-2018