Professional Documents
Culture Documents
Meko Racunarstvo - Reinforcment Learning PDF
Meko Racunarstvo - Reinforcment Learning PDF
MEKO RAUNARSTVO
SEMINARSKI RAD Reinforcement uenje primeri primene
ZRENJANIN, 2013
Uvod
Uenje jaanjem/osnaivanjem (Reinforcement Learning - RL) je, kako definiu Florentin Woergoetter i Bernd Porr, uenje putem interakcije sa okruenjem. RL agent ui od posledica svojih akcija, pre nego da ga eksplicitno ue i vre odabir njegovih akcija na bazi prolog iskustva (eksploatacije) i putem novih izbora (istraivanja), to u sutini predstavlja uenje na pokuajima i grekama (trial and error, eng.). Signal pojaanja koji RL agent dobija je numerika nagrada (reward), koji kodira uspeh ishoda akcije, pa agent trai da naui da bira akcije koje maksimiziraju akumuliranu nagradu u vremenu. [1] Dakle, moemo rei da je RL agent kao dete, koje dok upoznaje svet oko sebe, puzi, mae rukama, dodiruje predmete iz okruenja, bez da mu neko pokazuje ta treba da radi. Samim tim to proba na razliite, esto sluajne naine, da izvodi razne akcije, ono dobija povratne informacije iz okruenja i ustanovljava koje akcije daju najveu nagradu. Grafiki, interakcija agenta sa okruenjem moe da se predstavi ovako:
RL je uenje ta da se uradi kako da se stanja mapiraju u akcije, tako da se maksimizira numeriki signal nagrade. Agentu koji ui nije reeno unapred koje akcije da preduzme, kao u veini oblika mainskog uenja, ve on mora da otkrije koje akcije donose najveu nagradu isprobavajui ih. U nekim sluajevima, akcije mogu da utiu ne samo na trenutnu nagradu, ve i na naredna stanja, kao i naredne nagrade. Ove dve karakteristike pokuaj i greka, pretraga i odloena nagrada su dve najznaajnije odlike RL. Stoga moemo rei da se RL ne definie odreivanjem algoritama uenja, ve odreivanjem problema uenja. U osnovi, problem RL agenta u okruenju se posmatra sa 3 aspekta: senzacije (oseaja), akcije i cilja, i to u najoptijoj formi bez trivijalizacije ma kog od navedenih. [2] U ovom radu bie predstavljeno nekoliko primena praktine primene RL, odnosno njegovih aplikacija.
1. Primena RL
RL je popularno iz razloga to slui kao teoretski alat za prouavanje principa uenja agenta da se ponaa. Takoe, mnogi istraivai ga koriste kao praktini raunarski alat za konstruisanje autonomnih sistema koji sebe unapreuju sa iskustvom. Ove aplikacije se pojavljuju u oblastima od robotike, preko industrijske proizvodnje sve do kombinatornih problema pretrage koji se javljaju kod igranja igara. [4, str. 34]
2. Inverzna kinematika Ovaj problem se postavlja ovako: za datu poziciju i orijentaciju krajnjeg efektora manipulatora, izraunati sve mogue setove uglova na zglobovima koji bi mogli da se koriste da se dobije ta data pozicija. Ovo je osnovni problem u praktinoj upotrebi manipulatora.
Naveemo neke od poznatih primena RL: 1. Primene koje koriste algoritme politike gradijentnih metoda1 a) Kretanje (eng. Locomotion) etvoronoca Najpoznatiji eksperiment je Sony-AIBO2 robot, njegovo kretanje na etiri noge, a kasnije i pokuaji da timovi takvih robota igraju fudbal. Aibo se proizvodio do 2006. na komercijalnom tritu kao robot kuni ljubimac jer je mogao da se igra i autonomno ui.
a)
b)
b) Prikaz AIBO noge u xyz koordinatnom sistemu
b) Algoritam PEGASUS3 Ovaj algoritam se primenjivao za autonomni let bespilotnog helikoptera i eksperiment izbegavanja prepreka daljinski kontrolisanog modela automobila u nestruktuiranom okruenju. U sluaju helikoptera, PEGAUS je korien da helikopter naui da leti, da naui kompleksne letake manevre i da leti inverzno (propelerom okrenutim ka zemlji). Let autonomnog bespilotnog helikoptera je projekat Stanford Univerziteta, a kao primena reinforcement uenja se objanjava na kursu Mainsko uenje [7]. Okvir za reavanje problema su Markovljevi procesi odluivanja (MDPs)4, gde su verovatnoe nagrada nepoznate, pa je uvedena funkcija koja oznaava kvalitet
1
Policy-gradient methods - spadaju u alternativne metode pretrage politike agenata i kreu od mapiranja iz konanog okruenja (prostora) u prostor politika agenata. 2 AIBO (Artificial Intelligence roBOt) robot sa vetakom inteligencijom 3 PEGASUS kriptografski algoritam koji se, pored ostalog koristi i za GPS (Global Positioning System) 4 Markov decision processes (MDPs) matematiki okvir za modeliranje procesa odluivanja gde su izlazi delimino sluajni, a delimino pod kontrolom donosioca odluke.
Formula 1. Q-kvalitet para stanje-akcija, s-sluajno stanje koje se desilo prilikom pokuaja izvoenja akcije a, Pa verovatnoa akcije u funkciji stanja i sluajnog stanja, Ra vrednost nagrade za odreenu akciju, 0<1 diskontni faktor, V-funkcija vrednosti sluajnog stanja
Reinforcement uenje moe da rei MDPs i bez eksplicitnog navoenja tranzicionih verovatnoa, jer se do njih dolazi korienjem simulatora, koji se restartuje mnogo puta iz inicijano sluajnog poetnog stanja. Kod automobila su korieni laserski senzori za odreivane daljine, kao i monokularni signali za procenjivanje dubine, dok je slika deljena na 16 horizontalnih traka. [3, str. 94-95]
a)
b)
2. RL za kretanje dvonoca Kao naslednik AIBO robota, Sony je razvio dvononog humanoidnog robota QURIO5. Ovaj robot je mogao da prepoznaje glasove i lica, kao i da zapamti ljude, kao i da li im se dopada ili ne. Robot je uao i u Ginisovu knjigu rekorda kao prvi dvononi robot koji je mogao da tri (obe noge prilikom kretanja u istom trenutku odvojene od podloge).
Skrivene jedinice 80 40 80
Rezultat Lo Izgubio sa 13 poena u 51 igri Izgubio sa 7 poena u 38 igara Izgubio sa 1 poenom u 40 igara
Temporal difference (TD) learning je prediktivni metod. Najvie se koristi za reavanje RL problema i kombinacija je Monte Carlo ideja i ideja dinamikog programiranja (DP). 7 Backpropagation, skraenica za prostiranje greaka unazad, opti metod za trening vetakih neuronskih mrea. Od eljenih izlaza, mrea ui od vie ulaza, na slian nain kao to dete ui da prepozna psa iz primera vie pasa. [5 search: Backpropagation]
Trening oba algoritma za uenje je zahtevao nekoliko meseci kompjuterskog vremena i ostvaren je konstantnom samostalnom igrom. Nije koriena strategija istraivanja, a sistem je uvek pohlepno birao potez sa najveom moguom verovatnoom za pobedu. Ova naivna strategija istraivanja se pokazala potpuno adekvatnom za ovo okruenje, to je iznenadilo jer u literaturi o RL ima puno kontra primera koji pokazuju da pohlepno istraivanje moe da vodi do loih rezultata uenja.
Rezultati TD-Gammon-a su impresivni jer se takmiio na najviem nivou sa najboljim ljudskim igraima. Pokuavalo se i sa drugim igrama za dva igraa, ali bez uspeha kakav je imao TDGammon. Prouavali su se Go (Schraudolph, Dayan, & Sejnowski, 1994) i ah (Thrun, 1995). Jo uvek je otvoreno pitanje da li e i kako uspeh TD-Gammon-a biti ponovljen u drugim domenima. [2, str. 485-489; 4, str. 34-36]
Zakljuak
Osnovne ideje reinforcement uenja su: dobijanje povratne sprege u obliku nagrada; korisnost agenta je definisana funkcijom nagrade; agent mora da se naui kako da se ponaa da bi maksimizirao oekivane nagrade; svo uenje je bazirano na prouenim primerima izlaza. Sam Reinforcement je kod agenata je predstavljen pozitivnim funkcijama nagrade, na osnovu kojih agent ui kako da se ponaa, teei da postigne maksimalnu nagradu. Reinforcement uenje je posebno pogodno za reavanje problema koji ukljuuju dugotrajne naspram kratkotrajnih izmena nagrada. Uspeno je primenjeno kod razliitih problema, posebno kod kontrole robota, telekomunikacija, ema kretanja liftova, igara bekgemon8 i dame9 itd. Dve komponente ine RL monim: 1. Korienje primera da bi se optimizovao uinak 2. Korienje aproksimacija funkcija da bi se bavili velikim okruenjima Zahvaljujui ovim dvema karakteristikama, RL moe da se koristi u okruenjima sa ma kojom od sledeih situacija: - model okruenaj je poznat, ali ne postoji analitiko reenje; - dat je samo simulacioni model okruenja; - jedini nain da se prikupe informacije o okruenju je da se interaguje sa njim. Prva dve situacije mogu da se smatraju problemima planiranja, jer su neki oblici modela dostupni i/ili poznati, a trea moe da se smatra pravim problemom uenja. U RL metodologiji, oba problema planiranja mogu da se prevedu u probleme mainskog uenja.
8 9
Backgammon Checkers
Literatura
[1] Florentin Woergoetter and Bernd Porr (2008): Scholarpedia, 3(3):1448. link: http://dx.doi.org/10.4249/scholarpedia.1448 [2] Richard S. Sutton , Andrew G. Barto: Reinforcement Learning An Introduction, MIT Press, Cambridge, MA, 1998 Bradford Book [3] Ben Krse, Patrick van der Smagt: An Introduction to Neural Networks, 8th Edition, The University of Amsterdam, 1996, pp. 85 105. [4] Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore, Reinforcement Learning: A Survey, Journal of Artifcial Intelligence Research 4 (1996) 237-285 [5] Wikipedia, The Free Encyclopedia, link: http://en.wikipedia.org [6] Andrew Y. Ng, H. Jin Kim, Michael I. Jordan, and Shankar Sastry: Autonomous helicopter flight via Reinforcement Learning, Stanford University, 2001. [7] Andrew Y. Ng, Lecture 16 Machine Learning: Applications of Reinforcement Learning, Stanford University, 2008., link: http://preview.tinyurl.com/n6xl4oz
Sadraj
Uvod.................................................................................................................................... 1 1. Primena RL ..................................................................................................................... 2 1.1 Primena RL za kontrolu robota ................................................................................. 2 1.1.1 Praktini primeri primene RL za kontrolu robota ......................................... 3