Professional Documents
Culture Documents
Eysenck - Keane-Marr Komputációs Elmélete
Eysenck - Keane-Marr Komputációs Elmélete
Eysenck - Keane-Marr Komputációs Elmélete
Az alapvető elmélet
A fejezet során már láttuk, hogy számos eltérő elképzelés alakult ki az észlelés
tanulmányozására, melyek közül történetileg a pszichológiai és a fiziológiai
megközelítések voltak a legfontosabbak. Egyre több jele van annak, hogy a
mesterséges intelligenciára alapuló elképzelések is hamarosan lényeges szerepet
fognak játszani, különösen akkor, ha lehetővé válik olyan számítógépes program
létrehozása, mely segítségével a gép tárgyakat képes felismerni a való világban. Az
olvasóban felmerülhet, hogy valójában arra van szükség, hogy a pszichológiai, a
fiziológiai és a mesterséges intelligencia alapján álló nézőpontokat valahogy
egyesítsük. A néhai David Marr és kollégái pontosan erre tettek kísérletet a vizuális
észlelés esetében. Komputációs elméletüket számos helyen részletesen bemutatták
(pl. Frisby, 1986; Marr, 1982).
Marr (1982) kiindulópontja az volt, hogy a magyarázatnak számos különböző
szintje van. Vegyünk egy olyan példát, mely az autó felépítését és működését igyekszik
megmagyarázni. Egy bizonyos szinten az autó motorból, négy kerékből, tengelyből,
sebességváltóból és még számos más alkatrészből áll. Egy másik szinten leírhatjuk,
hogy mi a szerepe az akkumulátornak az elektromos áramellátásban, a hűtő szerepét a
motor hűtésében, vagy a karburátor működését és így tovább. Végül pedig
megmagyarázhatjuk az autó lényegét funkciója szempontjából is, ami természetesen
az, hogy embereket és javaikat az egyik helyről a másikra elszállítsa az utakon.
Ahogyan már az első fejezetben láttuk, Marr (1982) három szintet különböztetett
meg a vizuális percepció esetében. A legfelső a komputációs szint, mely az észlelés
céljához kapcsolódik, a legalsó pedig a hardver szint (azaz az agy). Egy közbeeső
szinten találhatjuk az algoritmikus szintet, mely az észlelésben lényeges folyamatok
részleteivel foglalkozik.
Bár mindegyik magyarázati szint saját jogán fontos, a komputációs elmélet
szintje talán különös jelentőséggel bír. Hogy ezt mi indokolja, azt az előző autós
példából is láthatjuk. Teljes mértékben tisztában lehetünk azzal, hogy az autó egyes
alkatrészei hogyan működnek, de anélkül, hogy tudnánk, mire való az autó, nagyon
keveset értenénk abból, hogy miért rendelkezik az autó azokkal az alkatrészekkel azon
a bizonyos módon összekötve egymással. Amint átlátjuk, hogy az autó alapvetően
szállítási eszköz, akkor ebből következik, hogy szüksége van energiaforrásra,
aerodinamikailag megfelelő alakra, mozgását szabályozó eszközökre, és így tovább, s
rögtön világossá válik, hogy az autókat miért tervezik úgy, ahogyan tervezik.
Korábban már foglalkoztunk Marr (1982) elméletének általános jellemzőivel, itt
az ideje most, hogy részletesebben tárgyaljuk a vizuális észlelésre vonatkozó elméletét.
Marr alapjában véve azt javasolta, hogy a látásban szerepet játszó folyamatok
reprezentációk (vagyis leírások) sorozatát hozzák létre, melyek egyre részletesebb
információval szolgálnak a vizuális környezetrl. Marr (1982) szerint a reprezentáció
három fő fajtáját kell megkülönböztetnünk:
*Az első vázlat, mely a fő fényintenzitás változások kétdimenziós leírását adja meg a
vizuális bemenetben, beleértve a szélekre, kontúrokra és foltokra vonatkozó
információkat. Ez a reprezentáció megfigyelő-központú, ami azt jelenti, hogy a
vizuális bemenetet csak a megfigyelő szempontjából írja le.
*A 2.5 dimenziós vázlat, mely a látható felületek mélységének és helyzetének leírását
fogalja magába, s felhasználja az árnyékok, a textúra, a mozgás, a két szemre
vonatkozó diszparitás stb által szolgáltatott információkat is. Ugyanúgy, mint az
első vázlat, ez is megfigyelő-központú.
Az első vázlat
Marr (1982) szerint az első vázlatnak két változatát különböztethetjük meg, a nyers első
vázlatot és a teljes első vázlatot. A nyers első vázlat alapvetően a vizuális kép
fényintenzitás változásairól tartalmaz információt, a teljes első vázlat pedig annak
eredményeképpen alakul ki, hogy ezt az információt felhasználjuk a tárgyak számának
és vázlatos alakjának azonosításában. Talán a legérdekesebb elméleti probléma, mely
az első vázlat létrehozása felvet abból adódik, hogy az intenzitásváltozások sokszor
kétértelmű információt adnak a vizuális mező helyes szervezésével kapcsolatosan.
Nézzük meg például a 2.5. ábrát. A 2.5.(a) és a 2.5.(b) ábrán a pontokat horizontálisan
és vertikálisan is csoportosíthatjuk; a 2.5(c) ábrán a vonalakat vagy egymást
keresztező vonalaknak, vagy egy V-alakú vonalnak és egy fordított V-alakú vonalnak
látjuk; és a 2.5(d) ábrán pedig az alakzatot vagy körnek, vagy pedig egy befejezetlen
körnek érzékeljük.
Mielött továbbmennénk Marr (1982) elméletének bemutatásával, érdemes egy
kis időt a Gestalt megközelítés ide vonatkozó elképzeléseinek szentelni. Az
alaklélektan képviselőinek egyik legfontosabb érdeklődési területe a vizuális mező
szerveződése volt. A perceptuális szerveződést érintő alapvető elvük a pregnancia
törvénye volt, melyet Koffka (1935, 110. lap) a következőkben fogalmazott meg: "A
pszichológiai szervezdés mindíg annyira lesz 'jó', amennyire ezt az uralkodó feltételek
megengedik. Ebben a meghatározásban a 'jó' terminus meghatározatlan." A
gestaltisták gyakorlatilag a legegyszerbbet, vagy a rendelkezésre álló alternatívák
közül a legegységesebbet tartották jó formának.
Bár alapvető szerveződési elve a pregnancia törvénye volt, az alaklélektani
megközelítés számos más törvényt is javasolt. Legtöbbjük azonban a pregnancia elve
alá rendelhető. Néhányat ezek a törvények közül a 2.5. ábrán szemléltettünk. Az, hogy
a 2.5(a) ábrán három horizontális pontsorozatot, s nem vertikálisaan elrendezett
pontokat látunk azt jelzi, hogy a vizuális elemek hajlamosak csoportokba szervezdni,
ha elég közel vannak egymáshoz (a proximitás törvénye). A 2.5(b) ábra a hasonlóság
törvényét illusztrálja, mely szerint az elemeket akkor tesszük egy csoportba, ha
perceptuálisan hasonlóak egymáshoz. Vertikális oszlopokat látunk, s nem horizontális
sorokat, mert a vertikális oszlopban az elemek ugyanazok, míg a horinzontális
sorokban nem. A 2.5(c) ábrán egymást keresztező vonalakat látunk, mert a helyes
folytatás törvénye szerint azokat az elemeket vonjuk össze egy csoportba, melyek a
legkevesebb változtatást vagy megszakítást igénylik az egyenes vagy fokozatosan
görbülő vonalakban vagy kontúrokban. A 2.5(d) ábra a zártság törvényét illusztrálja,
mely szerint egy alakzat hiányzó részeit kitöltjük, hogy az alakzat befejezett legyen. Így
kört látunk, annak ellenére, hogy a kör nincs befejezve.
A perceptuális szerveződés ilyen, és más alaklélektani törvényeinek belátható
intuitív értelme van, de ezek az elvek csupán leíró megállapítások, s a magyarázó
erejük csekély. A gestaltisták láthatóan úgy vélték, hogy törvényeik alapvető agyi
szerveződési folyamatokat ragadtak meg, de sokkal indokoltabb azt feltételezni, hogy a
törvények a tapasztalás következményei. Történetesen az a helyzet, hogy egymáshoz
közel lévő, hasonló stb. elemek ugyanazon tárgyhoz tartoznak, s ez valószínűleg olyan
dolog, amit megtanulunk.
Marr (1976) felhasználta a Gestalt pszichológusok meglátásait, amikor egy
számítógépes program segítségével próbált eljutni a nyers első vázlattól a teljes első
vázlatig. Nincs lehetőség arra, hogy itt belemenjünk ennek részleteibe. Azt azonban
érdemes megemlíteni, hogy Marr rájött, hogy két aránylag általános elv alkalmazása
nagyon hasznos lehet a program megírásában: az explicit megnevezés és a
legkevesebb elkötelezettség elve. Az explicit megnevezés elve értelmében hasznosnak
bizonyult nevet vagy szimbólumot rendelni a csoportosított elemekhez. Ennek az az
oka, hogy a nevet vagy szimbólumot újra és újra felhasználhatjuk más csoportosított
elemek leírására, melyek további nagyobb csoportokat hozhatnak létre. A legkevesebb
elkötelezettség elve szerint pedig a kétértelműségeket csak akkor tudjuk feloldani,
amikor már meggyőző bizonyítékokkal rendelkezünk a megfelelő feloldás mikéntjéről.
Ez az elv azért hasznos, mert a feldolgozás korai szakaszánál jelentkező tévedések
több más tévedéshez is vezethetnek a későbbiekben.
Marr (1982) szerint különböző szakaszok jellemzik az első vázlat átalakítását a 2.5 D
vázlatba. Az első szakaszban egy tartománytérkép épül fel ("a vizuális esemény
felszíneinek pontról pontra történő feltérképezése a mélység szempontjából", Frisby,
1986, 164.lap). Ezután magasabb szintő leírások (pl. konvex vagy konkáv
csatlakozások két vagy több felszín között) jönnek létre a térkép egymáshoz
kapcsolódó részeiből származó információk egyesítése révén. Sokkal többet tudunk
azokról a folyamatokról, melyek a tartománytérkép létrehozásában szerepet játszanak,
mint arról, hogy hogyan jutunk el a 2.5 D vázlathoz, és a téma tárgyalásában ezt a tényt
figyelembe is vesszük.
Milyen fajta információkat használunk az első vázlatból a 2.5 D vázlatba történő
átmenet során? A felhasznált információk sorába a következők tartoznak: árnyék,
mozgás, textúra, alak és két szemre vonatkozó diszparitás. Mivel Marr (1982) számos
területen járult hozzá a mélységészlelésben jelentkező diszparitás jobb megértéséhez,
ezért erre az információforrásra fogjuk összpontosítani a figyelmet.
A "binokuláris diszparitás" arra a tényre utal, hogy a két szemet ért vizuális inger
nem pontosan egyforma. Ezt pontosan megfigyelhetjük, ha egyik ujjunkat közel tarjuk
az orrunkhoz és csak az egyik szemünkkel nézzük. Minél távolabb van tőlünk a tárgy,
annál kisebb lesz a binokuláris diszparitás. Íly módon a diszparitás felhasználható arra,
hogy a különböz tárgyak viszonylagos távolságát megállapítsuk.
Marr és Poggio (1976) és Marr (1982) szerint a binokuláris diszparitás által
nyújtott információ felhasználása a tartományérkép létrehozásában összetett
folyamatokkal párosul. A megoldandó problémák között felmerül az, hogy hogyan
biztosítsuk, hogy a két szemből jövő információk megfelelően illeszkedjenek (az ún.
"korrespondancia probléma"). Marr és Poggio (1976) három szabályt javasolt a
korrespondancia probléma megfelelő kezelésére:
A 3 D reprezentáció
Az emberi alak ilyen hierarchikus szervezdését a 2.6 ábrán látjuk. Az ábra azt
mutatja, hogy az emberi alakot hogyan lehet hengerek sorozatára lebontani az
általánosság különböző szintjein.
2.6. ábra
Értékelés
Marr egyik legnagyobb sikere abban rejlik, hogy világossá tette, hogy a tárgyfelismerés
sokkal nagyobb teljesítmény, mint azt általában gondolták. A szemeket érő információ
jellemzően kétértelmű és folyamatosan változik, és a tárgy által nyújtott vizuális
információ a megfigyelési szögtől függően radikálisan különbözhet. Ez azzal jár, hogy
valószínűleg nagyon összetett elméletekre van szükség a tárgyfelismerés
megértéséhez. Marr (1982) elméleti megközelítése értékes első próbálkozásnak
számít, mely jól megközelíti a szükséges bonyolultságot.
Az egyik oka annak, amiért Marr (1982) azt feltételezte, hogy a
tárgyfelismerésben komplex folyamatok játszanak szerepet az volt, hogy ő és mások is
számos problémával kerültek szembe, amikor megpróbáltak nagyon egyszerű vizuális
környezeteket kezelő számítógépes programokat írni. Az a tény, hogy még a
legegyszerűbb perceptuális folyamatokat is nagyon nehéz szimulálni arra enged
következtetni, hogy az emberi észlelésben sokkal több minden van, mint azt eredetileg
elképzelték.
Nagyon sok érv támasztja alá azt az elképzelést, hogy az észlelő személyek
fokozatosan egyre összetettebb reprezentációkat hoznak létre. Az pedig, hogy ez az
elméleti megközelítés megpróbálja integrálni a pszichológiai, a fiziológiai és a
mesterséges intelligencia által képviselt nézpontokat csak megerősít bennünket
abban, hogy a kutatás a helyes irányban halad. Ahogyan majd a következő részben
látjuk, a kognitív neuropszichológiai bizonyítékok jelentős része összhangban van azzal
a feltételezéssel, hogy a tárgyfelismerés feldolgozási szakaszok sorozatából áll.
Negatív szempontból nézve Marr komputációs elmélete főként a tárgyfelismerés korai
szakaszaira helyezte a hangsúlyt. Bár az elmélet aránylag sikeresnek bizonyult az első
vázlat és a 2.5 D vázlat létrehozásával kapcsolatban, még nincsenek részletekbe menő
ismereteink azokról a folyamatokról, melyek során a 2.5 D vázlat a 3 D modell
reprezentációba alakul át. Egy további korlátja az elméletnek az, hogy Marr (1982)
viszonylag keveset mondott arról, hogy a látótérben lévő tárgyakról korábban szerzett
ismeretek hogyan befolyásolják a vizuális folyamatokat. Nem lenne jogos azt állítani,
hogy teljesen elhanyagolta a már meglévő tudás hatását, de az valószínűleg igaz, hogy
háttérbe szorította ezt a hatást.
Egy utolsó korlátját az elméletnek Tenebaum, Witkin és Wandell (1983) mutatta
ki. Megjegyezték, hogy Marr (1982) a bizonyos perceptuális célokat megvalósító
komputációs elméletnek sokszor a puszta létét bizonyítéknak tekintette arra, hogy az
elmélet le is írta, hogy az észlelésnek a kérdéses aspektusa ténylegesen hogyan
mködik az emberek esetében. Például Marr (1982) komputációs módszerekkel
kimutatta, hogy a mélység és a felszín orientációját ki lehet közetkeztetni anélkül, hogy
a tárgyról való tudásunkat hasznosítanánk a folyamatban, s ez alapján arra a
következtetésre jutott, hogy a mélyég és az orientáció reprezentációja mindíg megelzi
a tárgy felismerését. Természetesen ez a következtetés nem mindíg érvényes.
Kognitív neuropszichológia
Ha egy betegnek gondot okoz 2.5 D vázlatokat kialakítani, de létre tudja hozni az első
vázlatokat, és hozzá tud férni a tárgyakkal kapcsolatos szemantikai ismeretekhez,
akkor milyen perceptuális teljesítményt várunk el tle? Pozitív oldalról tekintve a
vizuális észlelés bizonyos alapvet folyamatai sértetlenek, azok is, melyek a
fényintenzitás változásának elzetes elemzésében játszanak szerepet. Ráadásul a
tárgyak más érzékel modalitásokból érkező információk segítségével is
azonosíthatók. Negatív oldalról fogalmazva pedig az ilyen beteg súlyos alakfeldolgozási
károsodásban szenved s képtelen a felmutatott tárgyakat lemásolni. Ugyanncsak nem
képes a tárgyakat pusztán vizuális információ alapján azonosítani.
Ahogyan Ellis és Young (1988) áttekintése világosan megmutatja, vannak olyan
agysérült emberek, akiknek perceptuális károsodásai pontosan a fenti problémákra
emlékeztetnek. Van például egy beteg, S, akit Benson és Greenberg (1969) vizsgált. Ez
a beteg bizonyos perceptuális képességeket megőrzött a vizuális modalitásban, amit
pontosan jelez az, hogy képes volt viszonylag kis fényesség különbségeket észlelni és
arra is képes volt, hogy biztonsággal eligazodjon a kórházban, ahol éppen lakott.
Bizonyos tárgyakat is azonosítani tudott, feltéve ha a megfelelő nem vizuális (hallási
vagy tapintási) információk is rendelkezésre álltak. Szöges ellentétben ezekkel e
képeségekkel azonban S rendkívül nehezen tudott pusztán a vizuális információ
alapján tárgyakat azonosítani. Problémái az alak- és tárgyészleléssel kapcsolatosan
olyan súlyosak voltak, hogy még egyszerű alakzatokat sem tudott lemásolni, s még azt
is képtelen volt eldönteni, hogy négy alakzat közül melyik volt azonos egy adott
mintával.
S perceptuális teljesítménye nyilvánvalóan mutatta, hogy többé már nem volt
képes forma- és alakfeldolgozási képességeit alkalmazni, melyek a 2.5 D vázlat
létrehozását meghatározzzák. Megmaradt vizuális képességei azonban arra utaltak,
hogy még képes volt az els vázlat legalább megközelítő reprezentációját megalkotni.
Az az elképzelést, hogy az olyan betegek, mint S viszonylag sértetlen perceptuális
képességekkel rendelkeznek, nem fogadta széleskör egyetértés. Campion és Latto
(1985) megvizsgáltak egy beteget, RC-t, aki sok tekintetben hasonlított S-re. Mindkét
beteg szénmonoxid mérgezést szenvedett egy baleset során, nagyon gyenge
teljesítményt mutatott a vizuális tárgyfelismerésben, de más modalitásokban nem, és
néhány alapvető vizuális képesség mindkettben megmutatkozott. Felfedezték, hogy
RC látómezejében számos kis vakfolt volt, s valószínleg ezek a kis vak területek voltak
felelsek a csökkent tárgyészlelési képességekért.
Összefoglalva, két iskola létezik, mely megpróbál megfelelő magyarázatot adni
az olyan perceptuális hiányosságokra, mint amilyenekkel S és RC rendelkezik. Az egyik
lehetőség az, hogy az ilyen perceptuális problémák főként a forma- és alakfeldolgozás
szintjén jelentkeznek, egy másik pedig az, hogy a 2.5 D vázlat létrehozásával
kapcsolatos problémák más, alapvető szintű perceptuális károsodásokban
gyökereznek. Nagyon valószín, hogy az alapvet perceptuális károsodások (pl. RC
vak területe) néha a tárgyfelismerést teszik tönkre. Az a tény azonban, hogy az ilyen
károsodások mértéke nem nagyon függ össze a tárgyészlelés problémáival (pl. Ellis és
Young, 1988) arra utal, hogy a károsodott tárgyészlelésrl nem adhatunk számot
pusztán szenzoros hiányosságok alapján.
A 3 D model reprezentációval kapcsolatos problémák
A Marr (1982) által javasolt modell szerint elméletileg fennáll az a lehetőség, hogy az
agysérült betegeknek problémát okoz a tárgyfelismerés, amikor a 2.5 D vázlatot át kell
alakítani a a 3 D modell reprezentációba. Milyen teljesítményt várhatunk el az ilyen
betegek esetében? Lehet, hogy vizuálisan bemutatott tárgyakat képesek viszonylag
pontosan lerajzolni, mivel ez a képesség csak egy megfelelő 2.5 D vázlatot igényel.
Szokatlan szögekből felmutatott tárgyak esetében azonban igen nagy nehézségekkel
járna a felismerés, mert a betegekben hiányzik az a képesség, mely alapján a
megfigyeli nézőponton alapuló 2.5 D vázlatot a tárgyközpontú 3 D modell
reprezentációba át tudják alakítani. Végezetül ha a szemantikai tudás a tárgyakról
sértetlen, akkor az ilyen betegek talán fel tudnak ismerni olyan tárgyakat, melyeket a
legjellemzőbb szögből látnak. Ilyen körülmények között hasonlít a 2.5 D vázlat
leginkább a 3 D modell reprezentációra, s így a reprezentációk közötti tranformáció
nehézsége a minimálisra csökken.
Azokat a betegeket, akik legalább is megközelítleg mgfelelnek ennek a
leírásnak, Warrington és Taylor (1978) vizsgálta részletesen. A betegek poszterior
sérüléseket szenvedtek a jobb oldali agyféltekében. Warrington és Taylor (1978)
tárgyakról készített képpárokat használt, melyeken ugyanaz a tárgy szokásos és
szokatlan szögekből volt fényképezve. Warrington és Taylor (1978) nem definiálta
nagyon pontosan, hogy mi volt a különbség a "szokásos" és "szokatlan" között. A
lényeg azonban az, hogy a tárgyak szokatlan vagy nem konvencionális nézete
nagyobb transzformációkat tesz szükségessé a 3 D modell reprezentáció
megalkotásában, mint a szokásos nézetek. Egy vasaló szokásos nézetét pédául felülről
fényképezték, míg a szokatlan nézetet úgy, hogy csak a vasaló alsó része és a fogó
egy része volt látható.
Az egyik kísérletben a fényképeket egyenként mutatták meg. Az agysérült
betegek aránylag jól tudták azonosítani a szokásos vagy konvencionális nézetben
fényképezett tárgyakat, de sokkal rosszab volt a teljesítményük, amikor ugyanazokat a
tárgyakat szokatlan nézetből mutatták. Egy másik tesztben sokkal drámaibb
bizonyítékokat találtak a betegek problémáit illetően. Fényképeket párokban mutattak
(az egyiket szokásos, a másikat pedig szokatlan nézetben), és a betegeknek azt kellett
eldönteni, hogy a két fénykép ugyanazt a tárgyat ábrázolta-e. A betegek nagyon
gyengén teljesítettek ebben a feladatban. Ezt azt jelzi, hogy nehéznek találták a
szokatlan nézetből fényképezett tárgy azonosítását még akkor is, amikor a megszokot
nézet azonosítása alapján tudták, hogy mi lehet az a dolog.
Az a tény, hogy Warrington és Taylor (1978) kísérletében a betegek jól
teljesítettek a megszokott nézetben fényképezett tárgyak esetében azt sugallja, hogy a
tárgyészlelésben szerepet játszó legtöbb folyamat sértetlen maradt. Jelentősen
gyengébb teljesítményük a szokatlan nézetből ábrázolt tárgyak esetében valószínűleg
azzal magyarázható, hogy nehezen tudják a 2.5 D vázlatot a 3 D modell
reprezentációba átalakítani.
Humphreys és Riddoch (1984, 1985) rámutatott, hogy egy tárgy nézete legalább
két módon lehet szokatlan. Egyrészt azért, mert a tárgy valamely megkülönböztető
jegye el van rejtve a negfigyelő elöl, másrészt azért, mert a tárgy le van rövidítve a
képen, s így nehéz meghatározni a fő nyúlási tengelyét. Ennek megfelelően
Humphreys és Riddoch (1984, 1985) olyan képeket használtak, melyeken néhány
szokatlan nézetben egy megkülönböztet jegyet rejtettek el, másokban pedig rövidítést
alkalmaztak. Két feladat volt: tárgy megnevezése és tárgyak összevetése. Ugyanannak
a tárgyról két képet mutattak meg, valamint egy harmadik tárgyét is, mely egy
vizuálisan hasonló félrevezető kép volt.
Humphreys és Riddoch (1984, 1985) négy betegtől nyert adatokat a két
feladatban, mindegyiküknek hátsó sérülése volt a jobb féltekében. A betegek
alapvetően igen gyengén teljesítettek a rövidített képek esetében, de akkor nem,
amikor egy megkülönböztet jegy volt elrejtve. Hogyan viszonyulnak ezek az
eredmények Marr (1982) tárgyészlelésre és tárgyfelismerésre vonatkozó elméleti
modelljéhez? Marr és Nishihara (1978) szerint a rövidítés különösen megnehezíti a 3 D
modell reprezentáció létrehozását, és úgy tnik, hogy ez az adatok legmegfelelőbb
magyarázata.
Összefoglalás