Professional Documents
Culture Documents
TP Top-K
TP Top-K
INTRODUCTION
P a r e x e m p le , da ns le pr o gr a mm e W o r d c o u n t , v o us
s o uha i te z s o r t i r le s info r ma t io ns s ta t i s t ique s de s tr o i s
pr e mie r s mo ts . À ce s ta de , v o us po uv e z ut i l is e r la
mé th o de c l e a n u p ( ) po ur y pa r v e nir .
L a mé th o de s e t u p ( ) e t la mé tho de c l e a n u p ( ) ne fo nt
r ie n pa r dé fa ut e t ne s o nt e x é cut é e s qu ' une s e ule
fo i s .
S i v o us de v e z e f fe ctue r de s tr a v a ux de co nf i gur a t io n
e t de ne tto y a ge , v o us de v e z r é é cr i r e da ns la s o us -
c la s s e M a ppe r / R e duce r po ur impl é me nte r la fo nct io n
co r r e s po nda nte . L a mé tho de ma p s e r a
r é impl é me nté e da ns la s o us - c la s s e co r r e s po nda nte ,
qui e s t no tr e mé tho de ma p pe r s o nna l i s é e .
3EME PARTIE:
PROCESSUS
Voici un graph qui illusre notre solution proposée :
3EME PARTIE:
PROCESSUS
SOLUTION PROOPOSÉE :
P r e mie r e me nt o n in i t ia l i s e no tr e s tr uct ur e de
do nn é e s a v e c la fo n c t io n s e t u p ( ) , ce tte fo n c t i o n s e r a
e x é cut é e une s e ul fo i s . P uis da ns la fo nct io n ma p , o n
s p lit le s do nn é e s s é pa r é e s pa r de s " , " po ur e x tr a i r e le
no m de la v i l le e t la po pula t io n . bie n s ur o n do i t
e x c lur e le s v i l le s s a ns po pu la t io n .
L e no m de la v i l le e s t da ns l ' in di ce 1 e t le no mbr e de
po pula t io n e s t da ns l ' in di ce 4 .
le s do nné e s da ns un T r e e M a p s o nt tr ié s da ns un o r dr e
cr o i s s a nt do nc le plus pe t i t é lé me nt e s t le pr e mie r
é lé me nt
o n po s e la co ndi t i o n s uiv a nte ( s i la ta i l le du T r e e M a p
a dé pa s s é 1 0 o n s uppr ime le pr e mie r é lé me nt qui e s t
le plus pe t i t ) po ur ga r de r to ujo ur s le s to p 1 0
P uis la fo n c t i o n c l e a n u p ( ) e s t e x é cu t é e . un po int
impo r ta nt à no te r i c i e s t que no us ut i l is o ns
c o n t e x t . w r i t e ( ) da ns la mé tho de c l e a n u p ( ) qu i ne
s ' e x é cute qu ' une s e ule fo i s à la f in de la dur é e de v ie
de M a ppe r . M a ppe r tr a i te une pa i r e c lé - v a le ur à la
fo i s e t le s é cr i t e n ta nt que s o r t ie inte r mé dia i r e s ur le
dis que lo ca l . M a i s no us de v o ns tr a i te r le blo c e ntie r
( to ute s le s pa i r e s c lé - v a le ur ) po ur tr o uv e r to p 1 0 ,
a v a nt d ' é cr i r e la s o r t ie , no us ut i l is o ns do nc
co nte x t . wr i te ( ) da ns c le a nup ( ) .
L a fo n c t i o n c le a n u p ( ) a lo r s u t i l i s e c o n t e x t . w r i t e po ur
r e to ur ne r cha que c lé - v a le ur da ns la s tr uct ur e
T r e e M a p qui - co mme o n a dit - co ntie nt le s 1 0
pr e mie r s v i l le s lo ca ux po ur cha que blo c .
LA PARTIE DU REDUCER :
e l le ut i l is e a us s i la fo nct io n s e t u p po ur in i t ia l i s e r la
tr e e ma p .
puis elle utilise cette structure de données pour
trouver les top10 globaux (de la meme façon que
celle du mapper). Finalement, la fonction cleanup
a i t a p p e l à l a m é t h o d e c o n t e x t . wr i t e ( ) p o u r r e t o u r n e r
les top10 globaux (les 10 villes les plus peuplés).