Meko Racunarstvo - Reinforcment Learning PDF

UNIVERZITET U NOVOM SADU
TEHNIKI FAKULTET MIHAJLO PUPIN ZRENJANIN
MEKO RAUNARSTVO
SEMINARSKI RAD Reinforcement uenje primeri primene
Predmetni nastavnik: Doc. Dr Vladimir Brtka
Autor: Dejan Sretenovi , IT 113/12
ZRENJANIN, 2013
Reinforcement uenje-primeri primene 2013.
Uvod
Uenje jaanjem/osnaivanjem (Reinforcement Learning - RL) je, kako definiu Florentin Woergoetter i Bernd Porr, uenje putem interakcije sa okruenjem. RL agent ui od posledica svojih akcija, pre nego da ga eksplicitno ue i vre odabir njegovih akcija na bazi prolog iskustva (eksploatacije) i putem novih izbora (istraivanja), to u sutini predstavlja uenje na pokuajima i grekama (trial and error, eng.). Signal pojaanja koji RL agent dobija je numerika nagrada (reward), koji kodira uspeh ishoda akcije, pa agent trai da naui da bira akcije koje maksimiziraju akumuliranu nagradu u vremenu. [1] Dakle, moemo rei da je RL agent kao dete, koje dok upoznaje svet oko sebe, puzi, mae rukama, dodiruje predmete iz okruenja, bez da mu neko pokazuje ta treba da radi. Samim tim to proba na razliite, esto sluajne naine, da izvodi razne akcije, ono dobija povratne informacije iz okruenja i ustanovljava koje akcije daju najveu nagradu. Grafiki, interakcija agenta sa okruenjem moe da se predstavi ovako:
Slika 1. Interakcija RL-agenta i okruenja
RL je uenje ta da se uradi kako da se stanja mapiraju u akcije, tako da se maksimizira numeriki signal nagrade. Agentu koji ui nije reeno unapred koje akcije da preduzme, kao u veini oblika mainskog uenja, ve on mora da otkrije koje akcije donose najveu nagradu isprobavajui ih. U nekim sluajevima, akcije mogu da utiu ne samo na trenutnu nagradu, ve i na naredna stanja, kao i naredne nagrade. Ove dve karakteristike pokuaj i greka, pretraga i odloena nagrada su dve najznaajnije odlike RL. Stoga moemo rei da se RL ne definie odreivanjem algoritama uenja, ve odreivanjem problema uenja. U osnovi, problem RL agenta u okruenju se posmatra sa 3 aspekta: senzacije (oseaja), akcije i cilja, i to u najoptijoj formi bez trivijalizacije ma kog od navedenih. [2] U ovom radu bie predstavljeno nekoliko primena praktine primene RL, odnosno njegovih aplikacija.
Dejan Sretenovi, IT 113/12
1. Primena RL
RL je popularno iz razloga to slui kao teoretski alat za prouavanje principa uenja agenta da se ponaa. Takoe, mnogi istraivai ga koriste kao praktini raunarski alat za konstruisanje autonomnih sistema koji sebe unapreuju sa iskustvom. Ove aplikacije se pojavljuju u oblastima od robotike, preko industrijske proizvodnje sve do kombinatornih problema pretrage koji se javljaju kod igranja igara. [4, str. 34]
1.1 Primena RL za kontrolu robota

Robotika je vano polje primene neuronskih mrea. Obino su ove mree dizajnirane da budu direktni manipulatori to je najvanija forma industrijskog robota da hvata objekte na osnovu podataka sa senzora. Druga primena ukljuuje upravljanje i planiranje kretanja autnonomnih robota-vozila. Glavni zadatak u robotici predstavlja izvoenje pokreta u zavisnosti od podataka sa senzora. Postoji etiri problema za razmatranje: 1. Prednja kinematika Kinematika je nauka koja tretira kretanje bez osvrta na sile koje ga izazivaju. Izu avaju se pozicija, brzina, ubrzanje i svi vii derivati niza promenljivih pozicije. Osnovni problem u prouavanju mehanike manipulaciji je prednja kinematika. Ovo je statiki geometrijski problem izraunavanja pozicije i orijentacije krajnjeg efektora (ruke) manipulatora. Posebno, kada su dati setovi uglova na zglobovima, problem prednje kinematike je da izrauna poziciju i orijentaciju osnove alata u odnosu na postolje manipulatora tj. Robota.
Slika 2. Primer manipulatora robota [3, str. 85]
2. Inverzna kinematika Ovaj problem se postavlja ovako: za datu poziciju i orijentaciju krajnjeg efektora manipulatora, izraunati sve mogue setove uglova na zglobovima koji bi mogli da se koriste da se dobije ta data pozicija. Ovo je osnovni problem u praktinoj upotrebi manipulatora.

3. Dinamika Dinamika je prouavanje sila koje uzrokuju kretanje. Da bi se manipulator pokrenuo iz stanja mirovanja, krajnji efektor kretao konstantnom brzinom, usporio do zaustavljanja, potrebno je da se primeni kompleksni set funkcija obrtnog momenta na pokretae zglobova robota manipulatora. 4. Generisanje putanje kretanja (trajektorije) Da bi se manipulator glatko i kontrolisano kretao sa jednog mesta na drugo, mora da se kree preko glatke funkcije vremena. Problem generisanja trajektorije je kako tano da se izraunaju ove funkcije kretanja.
1.1.1 Praktini primeri primene RL za kontrolu robota
Naveemo neke od poznatih primena RL: 1. Primene koje koriste algoritme politike gradijentnih metoda1 a) Kretanje (eng. Locomotion) etvoronoca Najpoznatiji eksperiment je Sony-AIBO2 robot, njegovo kretanje na etiri noge, a kasnije i pokuaji da timovi takvih robota igraju fudbal. Aibo se proizvodio do 2006. na komercijalnom tritu kao robot kuni ljubimac jer je mogao da se igra i autonomno ui.
a)
b)
b) Prikaz AIBO noge u xyz koordinatnom sistemu
Slika 3. a) AIBO ERS-7 sa prikazanim unutranjim kolima [5, ../wiki/AIBO],
b) Algoritam PEGASUS3 Ovaj algoritam se primenjivao za autonomni let bespilotnog helikoptera i eksperiment izbegavanja prepreka daljinski kontrolisanog modela automobila u nestruktuiranom okruenju. U sluaju helikoptera, PEGAUS je korien da helikopter naui da leti, da naui kompleksne letake manevre i da leti inverzno (propelerom okrenutim ka zemlji). Let autonomnog bespilotnog helikoptera je projekat Stanford Univerziteta, a kao primena reinforcement uenja se objanjava na kursu Mainsko uenje [7]. Okvir za reavanje problema su Markovljevi procesi odluivanja (MDPs)4, gde su verovatnoe nagrada nepoznate, pa je uvedena funkcija koja oznaava kvalitet
1
Policy-gradient methods - spadaju u alternativne metode pretrage politike agenata i kreu od mapiranja iz konanog okruenja (prostora) u prostor politika agenata. 2 AIBO (Artificial Intelligence roBOt) robot sa vetakom inteligencijom 3 PEGASUS kriptografski algoritam koji se, pored ostalog koristi i za GPS (Global Positioning System) 4 Markov decision processes (MDPs) matematiki okvir za modeliranje procesa odluivanja gde su izlazi delimino sluajni, a delimino pod kontrolom donosioca odluke.

uparenih stanja i akcija, to znai da se agent izvodi prvo akciju a, pa nastavlja optimalno ili u skladu sa politikom koja mu je zadana. ( ) ( )( ( ) ( ))
Formula 1. Q-kvalitet para stanje-akcija, s-sluajno stanje koje se desilo prilikom pokuaja izvoenja akcije a, Pa verovatnoa akcije u funkciji stanja i sluajnog stanja, Ra vrednost nagrade za odreenu akciju, 0<1 diskontni faktor, V-funkcija vrednosti sluajnog stanja
Reinforcement uenje moe da rei MDPs i bez eksplicitnog navoenja tranzicionih verovatnoa, jer se do njih dolazi korienjem simulatora, koji se restartuje mnogo puta iz inicijano sluajnog poetnog stanja. Kod automobila su korieni laserski senzori za odreivane daljine, kao i monokularni signali za procenjivanje dubine, dok je slika deljena na 16 horizontalnih traka. [3, str. 94-95]
a)
b)
Slika 4. a) Autonomni helikopter, b) Simulacija inverznog leta autonomnog helikoptera
2. RL za kretanje dvonoca Kao naslednik AIBO robota, Sony je razvio dvononog humanoidnog robota QURIO5. Ovaj robot je mogao da prepoznaje glasove i lica, kao i da zapamti ljude, kao i da li im se dopada ili ne. Robot je uao i u Ginisovu knjigu rekorda kao prvi dvononi robot koji je mogao da tri (obe noge prilikom kretanja u istom trenutku odvojene od podloge).
Slika 5. Dvononi robot
QRIO (Quest for cuRIOsity) potraga za radoznalou

3. Hijererhijski pristup Primenio se za RL planarnog robota sa 3 spone koji sam ui da ustane.
Slika 6. Faze pokreta robota pri uenju ustajanja
1.2 Aplikacija RL kod kompjuterskih igara

Igranje igara je dominiralo kao problem u svetu Vetake inteligencije (Artificial Intelligence - AI, eng.) jo od vremena stvaranja vatre. Igre za dva igraa se ne uklapaju u uspostavljeni okvir za RL jer optimalni kriterijum za te igre nije onaj koji maksimizira nagradu o odnosu na postojee okruenje, ve maksimizacija nagr ade protiv optimalnog protivnika (minimaks). RL algoritmi se mogu adaptirati da rade na izvesnoj generalnoj klasi igara pa su mnogi istraivai primenjivali RL u ovim okruenjima. Jedna od aplikacija bila je i Samuelov sistem za igru dame (Samuels checkers playing system, 1959.). Ovo je uilo funkciju vrednosti predstavljenu linearnim funkcijskim aproksimatorom i upotrebilo emu treninga slinu auriranjima korienim kod iteracije vrednosti, privremenih razlika i Q uenja. Skorije, u 90-tim godinama XX veka, Tesauro je primenio temporal difference6 algoritam na Backgammon igru koja ima 1020 stanja, to ju je inilo nemoguom za RL. Umesto tog algoritma, Tesauro je primenio troslojnu neuronsku mreu baziranu na backpropagation7 kao funkcijski aproksimator za funkciju vredosti: Pozicija na tabli Verovatnoa pobede igraa koji je na potezu
Tabela 1. TD Gammon rezultati u igrama protiv najboljih ljudskih profesionalnih igraa. Turnir u igri backgammon se sastoji od odigravanja serij a igara za poene dok jedan od igraa ne postigne postavljeni cilj. TD Gammon nije dobijo ni jedan od ovih turnira ali je stigao dovoljno blizu da se smatra da je sada jedan od najboljih igraa na svetu.
Broj igara Osnova TD 1.0 TD 2.0 TD 3.0 300.000 800.000 1.500.000
Skrivene jedinice 80 40 80
Rezultat Lo Izgubio sa 13 poena u 51 igri Izgubio sa 7 poena u 38 igara Izgubio sa 1 poenom u 40 igara
Koriene su dve verzije algoritama za uenje:
Temporal difference (TD) learning je prediktivni metod. Najvie se koristi za reavanje RL problema i kombinacija je Monte Carlo ideja i ideja dinamikog programiranja (DP). 7 Backpropagation, skraenica za prostiranje greaka unazad, opti metod za trening vetakih neuronskih mrea. Od eljenih izlaza, mrea ui od vie ulaza, na slian nain kao to dete ui da prepozna psa iz primera vie pasa. [5 search: Backpropagation]

Osnovni (Basic) TD-Gammon koristio je veoma malo predefinisanog znanja o igri, a pozicije na tabli su virtualno bile samo grubo kodirane, dovoljno mone samo da dozvole neuronskoj mrei da razlikuje konceptualno raliite pozicije TD-Gammon bio je isto grubo kodiran, s tim da su mu runo ubaena pojedina svojstva koja se tiu pozicija na tabli u igri backgammon
Trening oba algoritma za uenje je zahtevao nekoliko meseci kompjuterskog vremena i ostvaren je konstantnom samostalnom igrom. Nije koriena strategija istraivanja, a sistem je uvek pohlepno birao potez sa najveom moguom verovatnoom za pobedu. Ova naivna strategija istraivanja se pokazala potpuno adekvatnom za ovo okruenje, to je iznenadilo jer u literaturi o RL ima puno kontra primera koji pokazuju da pohlepno istraivanje moe da vodi do loih rezultata uenja.
Slika 7. Neuronska mrea koriena u TD-Gammon [2, str. 486]
Rezultati TD-Gammon-a su impresivni jer se takmiio na najviem nivou sa najboljim ljudskim igraima. Pokuavalo se i sa drugim igrama za dva igraa, ali bez uspeha kakav je imao TDGammon. Prouavali su se Go (Schraudolph, Dayan, & Sejnowski, 1994) i ah (Thrun, 1995). Jo uvek je otvoreno pitanje da li e i kako uspeh TD-Gammon-a biti ponovljen u drugim domenima. [2, str. 485-489; 4, str. 34-36]
Zakljuak
Osnovne ideje reinforcement uenja su: dobijanje povratne sprege u obliku nagrada; korisnost agenta je definisana funkcijom nagrade; agent mora da se naui kako da se ponaa da bi maksimizirao oekivane nagrade; svo uenje je bazirano na prouenim primerima izlaza. Sam Reinforcement je kod agenata je predstavljen pozitivnim funkcijama nagrade, na osnovu kojih agent ui kako da se ponaa, teei da postigne maksimalnu nagradu. Reinforcement uenje je posebno pogodno za reavanje problema koji ukljuuju dugotrajne naspram kratkotrajnih izmena nagrada. Uspeno je primenjeno kod razliitih problema, posebno kod kontrole robota, telekomunikacija, ema kretanja liftova, igara bekgemon8 i dame9 itd. Dve komponente ine RL monim: 1. Korienje primera da bi se optimizovao uinak 2. Korienje aproksimacija funkcija da bi se bavili velikim okruenjima Zahvaljujui ovim dvema karakteristikama, RL moe da se koristi u okruenjima sa ma kojom od sledeih situacija: - model okruenaj je poznat, ali ne postoji analitiko reenje; - dat je samo simulacioni model okruenja; - jedini nain da se prikupe informacije o okruenju je da se interaguje sa njim. Prva dve situacije mogu da se smatraju problemima planiranja, jer su neki oblici modela dostupni i/ili poznati, a trea moe da se smatra pravim problemom uenja. U RL metodologiji, oba problema planiranja mogu da se prevedu u probleme mainskog uenja.
8 9
Backgammon Checkers
Literatura
[1] Florentin Woergoetter and Bernd Porr (2008): Scholarpedia, 3(3):1448. link: http://dx.doi.org/10.4249/scholarpedia.1448 [2] Richard S. Sutton , Andrew G. Barto: Reinforcement Learning An Introduction, MIT Press, Cambridge, MA, 1998 Bradford Book [3] Ben Krse, Patrick van der Smagt: An Introduction to Neural Networks, 8th Edition, The University of Amsterdam, 1996, pp. 85 105. [4] Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore, Reinforcement Learning: A Survey, Journal of Artifcial Intelligence Research 4 (1996) 237-285 [5] Wikipedia, The Free Encyclopedia, link: http://en.wikipedia.org [6] Andrew Y. Ng, H. Jin Kim, Michael I. Jordan, and Shankar Sastry: Autonomous helicopter flight via Reinforcement Learning, Stanford University, 2001. [7] Andrew Y. Ng, Lecture 16 Machine Learning: Applications of Reinforcement Learning, Stanford University, 2008., link: http://preview.tinyurl.com/n6xl4oz
Sadraj
Uvod.................................................................................................................................... 1 1. Primena RL ..................................................................................................................... 2 1.1 Primena RL za kontrolu robota ................................................................................. 2 1.1.1 Praktini primeri primene RL za kontrolu robota ......................................... 3
1.2 Aplikacija RL kod kompjuterskih igara .................................................................... 5 Zakljuak............................................................................................................................. 7 Literatura ............................................................................................................................. 8

Meko Racunarstvo - Reinforcment Learning PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Meko Racunarstvo - Reinforcment Learning PDF

Uploaded by

Copyright:

Available Formats

UNIVERZITET U NOVOM SADU

TEHNIKI FAKULTET MIHAJLO PUPIN ZRENJANIN

Predmetni nastavnik: Doc. Dr Vladimir Brtka

Autor: Dejan Sretenovi , IT 113/12

Reinforcement uenje-primeri primene 2013.

Slika 1. Interakcija RL-agenta i okruenja

Dejan Sretenovi, IT 113/12

Reinforcement uenje-primeri primene 2013.

1.1 Primena RL za kontrolu robota

Slika 2. Primer manipulatora robota [3, str. 85]

Dejan Sretenovi, IT 113/12

Reinforcement uenje-primeri primene 2013.

Slika 3. a) AIBO ERS-7 sa prikazanim unutranjim kolima [5, ../wiki/AIBO],

Dejan Sretenovi, IT 113/12

Reinforcement uenje-primeri primene 2013.

Slika 4. a) Autonomni helikopter, b) Simulacija inverznog leta autonomnog helikoptera

Slika 5. Dvononi robot

QRIO (Quest for cuRIOsity) potraga za radoznalou

Dejan Sretenovi, IT 113/12

Reinforcement uenje-primeri primene 2013.

Slika 6. Faze pokreta robota pri uenju ustajanja

1.2 Aplikacija RL kod kompjuterskih igara

Broj igara Osnova TD 1.0 TD 2.0 TD 3.0 300.000 800.000 1.500.000

Koriene su dve verzije algoritama za uenje:

Dejan Sretenovi, IT 113/12

Reinforcement uenje-primeri primene 2013.

Slika 7. Neuronska mrea koriena u TD-Gammon [2, str. 486]

Dejan Sretenovi, IT 113/12

Reinforcement uenje-primeri primene 2013.

Dejan Sretenovi, IT 113/12

Reinforcement uenje-primeri primene 2013.

Dejan Sretenovi, IT 113/12

You might also like