Eysenck - Keane-Marr Komputációs Elmélete

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

Marr komputációs elmélete

Forrás: Eysenck – Keane: Kognitív pszichológia

Az alapvető elmélet

A fejezet során már láttuk, hogy számos eltérő elképzelés alakult ki az észlelés
tanulmányozására, melyek közül történetileg a pszichológiai és a fiziológiai
megközelítések voltak a legfontosabbak. Egyre több jele van annak, hogy a
mesterséges intelligenciára alapuló elképzelések is hamarosan lényeges szerepet
fognak játszani, különösen akkor, ha lehetővé válik olyan számítógépes program
létrehozása, mely segítségével a gép tárgyakat képes felismerni a való világban. Az
olvasóban felmerülhet, hogy valójában arra van szükség, hogy a pszichológiai, a
fiziológiai és a mesterséges intelligencia alapján álló nézőpontokat valahogy
egyesítsük. A néhai David Marr és kollégái pontosan erre tettek kísérletet a vizuális
észlelés esetében. Komputációs elméletüket számos helyen részletesen bemutatták
(pl. Frisby, 1986; Marr, 1982).
Marr (1982) kiindulópontja az volt, hogy a magyarázatnak számos különböző
szintje van. Vegyünk egy olyan példát, mely az autó felépítését és működését igyekszik
megmagyarázni. Egy bizonyos szinten az autó motorból, négy kerékből, tengelyből,
sebességváltóból és még számos más alkatrészből áll. Egy másik szinten leírhatjuk,
hogy mi a szerepe az akkumulátornak az elektromos áramellátásban, a hűtő szerepét a
motor hűtésében, vagy a karburátor működését és így tovább. Végül pedig
megmagyarázhatjuk az autó lényegét funkciója szempontjából is, ami természetesen
az, hogy embereket és javaikat az egyik helyről a másikra elszállítsa az utakon.
Ahogyan már az első fejezetben láttuk, Marr (1982) három szintet különböztetett
meg a vizuális percepció esetében. A legfelső a komputációs szint, mely az észlelés
céljához kapcsolódik, a legalsó pedig a hardver szint (azaz az agy). Egy közbeeső
szinten találhatjuk az algoritmikus szintet, mely az észlelésben lényeges folyamatok
részleteivel foglalkozik.
Bár mindegyik magyarázati szint saját jogán fontos, a komputációs elmélet
szintje talán különös jelentőséggel bír. Hogy ezt mi indokolja, azt az előző autós
példából is láthatjuk. Teljes mértékben tisztában lehetünk azzal, hogy az autó egyes
alkatrészei hogyan működnek, de anélkül, hogy tudnánk, mire való az autó, nagyon
keveset értenénk abból, hogy miért rendelkezik az autó azokkal az alkatrészekkel azon
a bizonyos módon összekötve egymással. Amint átlátjuk, hogy az autó alapvetően
szállítási eszköz, akkor ebből következik, hogy szüksége van energiaforrásra,
aerodinamikailag megfelelő alakra, mozgását szabályozó eszközökre, és így tovább, s
rögtön világossá válik, hogy az autókat miért tervezik úgy, ahogyan tervezik.
Korábban már foglalkoztunk Marr (1982) elméletének általános jellemzőivel, itt
az ideje most, hogy részletesebben tárgyaljuk a vizuális észlelésre vonatkozó elméletét.
Marr alapjában véve azt javasolta, hogy a látásban szerepet játszó folyamatok
reprezentációk (vagyis leírások) sorozatát hozzák létre, melyek egyre részletesebb
információval szolgálnak a vizuális környezetrl. Marr (1982) szerint a reprezentáció
három fő fajtáját kell megkülönböztetnünk:

*Az első vázlat, mely a fő fényintenzitás változások kétdimenziós leírását adja meg a
vizuális bemenetben, beleértve a szélekre, kontúrokra és foltokra vonatkozó
információkat. Ez a reprezentáció megfigyelő-központú, ami azt jelenti, hogy a
vizuális bemenetet csak a megfigyelő szempontjából írja le.
*A 2.5 dimenziós vázlat, mely a látható felületek mélységének és helyzetének leírását
fogalja magába, s felhasználja az árnyékok, a textúra, a mozgás, a két szemre
vonatkozó diszparitás stb által szolgáltatott információkat is. Ugyanúgy, mint az
első vázlat, ez is megfigyelő-központú.

*A 3 dimenziós modell reprezentáció, mely háromdimeziós leírását adja a tárgyak


alakjának és relatív helyzetüknek úgy, hogy ez független a megfigyelő
nézőpontjától.

Az első vázlat

Marr (1982) szerint az első vázlatnak két változatát különböztethetjük meg, a nyers első
vázlatot és a teljes első vázlatot. A nyers első vázlat alapvetően a vizuális kép
fényintenzitás változásairól tartalmaz információt, a teljes első vázlat pedig annak
eredményeképpen alakul ki, hogy ezt az információt felhasználjuk a tárgyak számának
és vázlatos alakjának azonosításában. Talán a legérdekesebb elméleti probléma, mely
az első vázlat létrehozása felvet abból adódik, hogy az intenzitásváltozások sokszor
kétértelmű információt adnak a vizuális mező helyes szervezésével kapcsolatosan.
Nézzük meg például a 2.5. ábrát. A 2.5.(a) és a 2.5.(b) ábrán a pontokat horizontálisan
és vertikálisan is csoportosíthatjuk; a 2.5(c) ábrán a vonalakat vagy egymást
keresztező vonalaknak, vagy egy V-alakú vonalnak és egy fordított V-alakú vonalnak
látjuk; és a 2.5(d) ábrán pedig az alakzatot vagy körnek, vagy pedig egy befejezetlen
körnek érzékeljük.
Mielött továbbmennénk Marr (1982) elméletének bemutatásával, érdemes egy
kis időt a Gestalt megközelítés ide vonatkozó elképzeléseinek szentelni. Az
alaklélektan képviselőinek egyik legfontosabb érdeklődési területe a vizuális mező
szerveződése volt. A perceptuális szerveződést érintő alapvető elvük a pregnancia
törvénye volt, melyet Koffka (1935, 110. lap) a következőkben fogalmazott meg: "A
pszichológiai szervezdés mindíg annyira lesz 'jó', amennyire ezt az uralkodó feltételek
megengedik. Ebben a meghatározásban a 'jó' terminus meghatározatlan." A
gestaltisták gyakorlatilag a legegyszerbbet, vagy a rendelkezésre álló alternatívák
közül a legegységesebbet tartották jó formának.
Bár alapvető szerveződési elve a pregnancia törvénye volt, az alaklélektani
megközelítés számos más törvényt is javasolt. Legtöbbjük azonban a pregnancia elve
alá rendelhető. Néhányat ezek a törvények közül a 2.5. ábrán szemléltettünk. Az, hogy
a 2.5(a) ábrán három horizontális pontsorozatot, s nem vertikálisaan elrendezett
pontokat látunk azt jelzi, hogy a vizuális elemek hajlamosak csoportokba szervezdni,
ha elég közel vannak egymáshoz (a proximitás törvénye). A 2.5(b) ábra a hasonlóság
törvényét illusztrálja, mely szerint az elemeket akkor tesszük egy csoportba, ha
perceptuálisan hasonlóak egymáshoz. Vertikális oszlopokat látunk, s nem horizontális
sorokat, mert a vertikális oszlopban az elemek ugyanazok, míg a horinzontális
sorokban nem. A 2.5(c) ábrán egymást keresztező vonalakat látunk, mert a helyes
folytatás törvénye szerint azokat az elemeket vonjuk össze egy csoportba, melyek a
legkevesebb változtatást vagy megszakítást igénylik az egyenes vagy fokozatosan
görbülő vonalakban vagy kontúrokban. A 2.5(d) ábra a zártság törvényét illusztrálja,
mely szerint egy alakzat hiányzó részeit kitöltjük, hogy az alakzat befejezett legyen. Így
kört látunk, annak ellenére, hogy a kör nincs befejezve.
A perceptuális szerveződés ilyen, és más alaklélektani törvényeinek belátható
intuitív értelme van, de ezek az elvek csupán leíró megállapítások, s a magyarázó
erejük csekély. A gestaltisták láthatóan úgy vélték, hogy törvényeik alapvető agyi
szerveződési folyamatokat ragadtak meg, de sokkal indokoltabb azt feltételezni, hogy a
törvények a tapasztalás következményei. Történetesen az a helyzet, hogy egymáshoz
közel lévő, hasonló stb. elemek ugyanazon tárgyhoz tartoznak, s ez valószínűleg olyan
dolog, amit megtanulunk.
Marr (1976) felhasználta a Gestalt pszichológusok meglátásait, amikor egy
számítógépes program segítségével próbált eljutni a nyers első vázlattól a teljes első
vázlatig. Nincs lehetőség arra, hogy itt belemenjünk ennek részleteibe. Azt azonban
érdemes megemlíteni, hogy Marr rájött, hogy két aránylag általános elv alkalmazása
nagyon hasznos lehet a program megírásában: az explicit megnevezés és a
legkevesebb elkötelezettség elve. Az explicit megnevezés elve értelmében hasznosnak
bizonyult nevet vagy szimbólumot rendelni a csoportosított elemekhez. Ennek az az
oka, hogy a nevet vagy szimbólumot újra és újra felhasználhatjuk más csoportosított
elemek leírására, melyek további nagyobb csoportokat hozhatnak létre. A legkevesebb
elkötelezettség elve szerint pedig a kétértelműségeket csak akkor tudjuk feloldani,
amikor már meggyőző bizonyítékokkal rendelkezünk a megfelelő feloldás mikéntjéről.
Ez az elv azért hasznos, mert a feldolgozás korai szakaszánál jelentkező tévedések
több más tévedéshez is vezethetnek a későbbiekben.

A 2.5 Dimenziós vázlat

Marr (1982) szerint különböző szakaszok jellemzik az első vázlat átalakítását a 2.5 D
vázlatba. Az első szakaszban egy tartománytérkép épül fel ("a vizuális esemény
felszíneinek pontról pontra történő feltérképezése a mélység szempontjából", Frisby,
1986, 164.lap). Ezután magasabb szintő leírások (pl. konvex vagy konkáv
csatlakozások két vagy több felszín között) jönnek létre a térkép egymáshoz
kapcsolódó részeiből származó információk egyesítése révén. Sokkal többet tudunk
azokról a folyamatokról, melyek a tartománytérkép létrehozásában szerepet játszanak,
mint arról, hogy hogyan jutunk el a 2.5 D vázlathoz, és a téma tárgyalásában ezt a tényt
figyelembe is vesszük.
Milyen fajta információkat használunk az első vázlatból a 2.5 D vázlatba történő
átmenet során? A felhasznált információk sorába a következők tartoznak: árnyék,
mozgás, textúra, alak és két szemre vonatkozó diszparitás. Mivel Marr (1982) számos
területen járult hozzá a mélységészlelésben jelentkező diszparitás jobb megértéséhez,
ezért erre az információforrásra fogjuk összpontosítani a figyelmet.
A "binokuláris diszparitás" arra a tényre utal, hogy a két szemet ért vizuális inger
nem pontosan egyforma. Ezt pontosan megfigyelhetjük, ha egyik ujjunkat közel tarjuk
az orrunkhoz és csak az egyik szemünkkel nézzük. Minél távolabb van tőlünk a tárgy,
annál kisebb lesz a binokuláris diszparitás. Íly módon a diszparitás felhasználható arra,
hogy a különböz tárgyak viszonylagos távolságát megállapítsuk.
Marr és Poggio (1976) és Marr (1982) szerint a binokuláris diszparitás által
nyújtott információ felhasználása a tartományérkép létrehozásában összetett
folyamatokkal párosul. A megoldandó problémák között felmerül az, hogy hogyan
biztosítsuk, hogy a két szemből jövő információk megfelelően illeszkedjenek (az ún.
"korrespondancia probléma"). Marr és Poggio (1976) három szabályt javasolt a
korrespondancia probléma megfelelő kezelésére:

*1. binokuláris kombinációs szabály: Az els vázlat elemeit, melyek a mindkét


szemhez vezető bemenetből jönnek létre, csak akkor vetjük össze
egymással, ha ezek kompatibilisek (pl. ugyanaz a színük, a széleknek
ugyanaz az irányuk).
*2. binokuláris kombinációs szabály: Mindegyik elem csak egyetlen másik
elemhez illeszkedhet a másik első vázlatban. Ha ez a szabály nem
létezne, akkor egy elem egyszerre több helyen is megjelenhetne.
*3. binokuláris kombinációs szabály: Előnybe kell részesíteni azokat az
összevetéseket két pont vagy elem között, melyekben a két első vázlat
közötti diszparitások hasonlóak azokhoz a diszparitásokhoz, melyek
ugyanazon a felületen egymáshoz közeli illeszkedések esetében állnak
fenn. Ennek a szabálynak az az értelme, hogy egy felületen a közeli
pontok valószínűleg ugyanazon távolságra vannak a megfigyeltl, és a
diszparitás információ figyelembe veszi a távolságot.

Frisby (1986) rámutatott, hogy a fentiek közül a harmadik szabály a legkevésbé


kielégítő. Ha például egy tárgy meredeken dől a megfigyelőtől távolodva, akkor a közeli
pontok nem rendelkeznek sok nagyon hasonló diszparitással. Ez azt eredményezheti,
hogy a megfelelő pontok nem illesztődnek egymással.

A 3 D reprezentáció

A 2.5 D vázlat számos korláttal rendelkezik. Semmilyen információt sem tartalmaz


például a látómezőben lévő tárgyak azon felületeiről, melyek rejtve vannak a
szemlélőtől. Ráadásul a megfigyelőtől függ, ami azzal jár, hogy a tárgy reprezentációja
jelentősen változik aszerint, hogy milyen szögből látjuk. A reprezentáció ilyen nagy
változékonysága igencsak szegényes alapot nyújt a tárgy azonosítására, vagyis arra,
hogy összevethessük a reprezentációt a tárgyról a hosszútávú memóriában tárolt
információval. Többek között ezért fontos, hogy a megfigyelő továbbmenjen ennél és
kiszámítsa a 3 D modell reprezentációját, melyekre nem jellemzők ezek a korlátok.
Marr és Nishihara (1978) három szükséges kritériumot állapított meg a 3 D
model reprezentációjához:

*Hozzáférhetőség, mely arra utal, hogy a reprezentációt milyen könnyen lehet


létrehozni.
*Hatókör és egyediség, melyben a "hatókör" arra vonatkozik, hogy a
reprezentáció milyen mértékben alkalmazható minden alakra egy adott
kategórián belül, az "egyediség" pedig azt jelenti, hogy egy tárgy minden
egyes nézete ugyanazt a standard reprezentációt hozza létre. Frisby
(1986, 168. lap) egy zöldbabkonzerv leírását idézi, mint példát az
egyediségre. "Két lapos, kör alakú felületfolt, mely egy henger alakú
felület széleihez csatlakozik." Az egyedi leírás vagy reprezentáció
hatalmas előnye az, hogy sokkal könnyebb összvetni a memóriában lévő,
a tárgyra vonatkozó megfelelő ismerettel.
*Stabilitás és érzékenység, melyben a stabilitás azt jelenti, hogy a reprezentáció
magába foglalja a tárgyak közötti hasonlóságot, az érzékenység pedig
azt, hogy a szembeszökő különségek szintén jelen vannak a
reprezentázióban.

Marr és Nishihara (1976) csak korlátozott eredményeket értek el annak


leírásában, hogy mit is tartalmaznak a 3 D modell reprezentációi. Azt azonban
felvetették, hogy a tárgyak leírására szolgáló primitív egységek hengerek. Ugyancsak
javasolták, hogy ezek a primitív egységek hierarchikusan szerveződnek; a magasabb
szintű egységek a tárgy alakjáról, az alacsonyabb szintű egységek pedig a tárgy
részleteiről adnak információt. Az elméleti megközelítés sajátosságát jól érzékelteti
Marr és Nishihara (1978) leírása az emberi alakról:

Először a egy tengelyt rendelünk hozzá"test" általános formájához. Ez egy


tárgyközpontú koordinátarendszert hoz létre, amit azután arra
használhatunk, hogy meghatározzuk a "karok", "lábak", a "törzs" és a "fej"
elrendezését. Mindegyikük helyzetét saját tengelye határozza meg, ami
viszont arra szolgál, hogy további kiegészítő részek elrendezését
határozzuk meg. Így 3 D modellek hierarchiáját kapjuk ... Az alakokat ...
úgy rajzoljuk meg, mintha henger alakúak volnának, de ezt csupán csak a
kényelem kedvéért tesszük ...: Egyedül a tengelyek azok, melyek az alak
térfogat tulajdonságait reprezentálják, csakúgy, mint ahogyan a
pipatisztitó drótból készült állatfigurák különböző állatokat írhatnak le."

Az emberi alak ilyen hierarchikus szervezdését a 2.6 ábrán látjuk. Az ábra azt
mutatja, hogy az emberi alakot hogyan lehet hengerek sorozatára lebontani az
általánosság különböző szintjein.

2.6. ábra

Az emberi alak hierarchikus szerveződése (Marr és Nishihara, 1978) különböz


szinteken: (a) az egész test tengelye; (b) tengelyek a karok, lábak és a fej szintjén; (c) a
kar, mely fel- és alkarra van osztva; (d) az alkar és a különálló kéz; (e) a kéz feje és az
ujjak.

Értékelés

Marr egyik legnagyobb sikere abban rejlik, hogy világossá tette, hogy a tárgyfelismerés
sokkal nagyobb teljesítmény, mint azt általában gondolták. A szemeket érő információ
jellemzően kétértelmű és folyamatosan változik, és a tárgy által nyújtott vizuális
információ a megfigyelési szögtől függően radikálisan különbözhet. Ez azzal jár, hogy
valószínűleg nagyon összetett elméletekre van szükség a tárgyfelismerés
megértéséhez. Marr (1982) elméleti megközelítése értékes első próbálkozásnak
számít, mely jól megközelíti a szükséges bonyolultságot.
Az egyik oka annak, amiért Marr (1982) azt feltételezte, hogy a
tárgyfelismerésben komplex folyamatok játszanak szerepet az volt, hogy ő és mások is
számos problémával kerültek szembe, amikor megpróbáltak nagyon egyszerű vizuális
környezeteket kezelő számítógépes programokat írni. Az a tény, hogy még a
legegyszerűbb perceptuális folyamatokat is nagyon nehéz szimulálni arra enged
következtetni, hogy az emberi észlelésben sokkal több minden van, mint azt eredetileg
elképzelték.
Nagyon sok érv támasztja alá azt az elképzelést, hogy az észlelő személyek
fokozatosan egyre összetettebb reprezentációkat hoznak létre. Az pedig, hogy ez az
elméleti megközelítés megpróbálja integrálni a pszichológiai, a fiziológiai és a
mesterséges intelligencia által képviselt nézpontokat csak megerősít bennünket
abban, hogy a kutatás a helyes irányban halad. Ahogyan majd a következő részben
látjuk, a kognitív neuropszichológiai bizonyítékok jelentős része összhangban van azzal
a feltételezéssel, hogy a tárgyfelismerés feldolgozási szakaszok sorozatából áll.
Negatív szempontból nézve Marr komputációs elmélete főként a tárgyfelismerés korai
szakaszaira helyezte a hangsúlyt. Bár az elmélet aránylag sikeresnek bizonyult az első
vázlat és a 2.5 D vázlat létrehozásával kapcsolatban, még nincsenek részletekbe menő
ismereteink azokról a folyamatokról, melyek során a 2.5 D vázlat a 3 D modell
reprezentációba alakul át. Egy további korlátja az elméletnek az, hogy Marr (1982)
viszonylag keveset mondott arról, hogy a látótérben lévő tárgyakról korábban szerzett
ismeretek hogyan befolyásolják a vizuális folyamatokat. Nem lenne jogos azt állítani,
hogy teljesen elhanyagolta a már meglévő tudás hatását, de az valószínűleg igaz, hogy
háttérbe szorította ezt a hatást.
Egy utolsó korlátját az elméletnek Tenebaum, Witkin és Wandell (1983) mutatta
ki. Megjegyezték, hogy Marr (1982) a bizonyos perceptuális célokat megvalósító
komputációs elméletnek sokszor a puszta létét bizonyítéknak tekintette arra, hogy az
elmélet le is írta, hogy az észlelésnek a kérdéses aspektusa ténylegesen hogyan
mködik az emberek esetében. Például Marr (1982) komputációs módszerekkel
kimutatta, hogy a mélység és a felszín orientációját ki lehet közetkeztetni anélkül, hogy
a tárgyról való tudásunkat hasznosítanánk a folyamatban, s ez alapján arra a
következtetésre jutott, hogy a mélyég és az orientáció reprezentációja mindíg megelzi
a tárgy felismerését. Természetesen ez a következtetés nem mindíg érvényes.

Kognitív neuropszichológia

Ahogyan hamarosan látni fogjuk, a kognitív neuropszichológusok felfedezték, hogy az


agysérülést szenvedett betegek különböznek egymástól abban, hogy károsodásuk
milyen módon érinti a tárgyfelismerést. Marr (1982) komputációs elmélete használható
keretet adott a legtöbb ilyen károsodás vizsgálatához. Különösen idevágó Marr (1982)
azon feltételezése, hogy három egymást követ reprezentáció (vagyis az első vázlat, a
2.5 D vázlat és a 3 D modell reprezentáció) jön létre, amikor egy vizuális inger éri a
megfigyelőt. Az agysérülés bármelyik reprezentáció létrehozását károsíthatja, s a
perceptuális károsodás pontos természete attól függ, hogy az agysérülás melyik
specifikus reprezentációt befolyásolta kedvezőtlen irányban. Marr (1982) elméletéből az
is következik, hogy a csökkent képesség az első vázlat vagy a 2.5 D vázlat
létrehozására súlyosan befolyásolja (vagy akár tönkre is teheti) az emberek képességét
a 3 D modell reprezentáció megalkotására.
A 2.5 D vázlattal kapcsolatos problémák

Ha egy betegnek gondot okoz 2.5 D vázlatokat kialakítani, de létre tudja hozni az első
vázlatokat, és hozzá tud férni a tárgyakkal kapcsolatos szemantikai ismeretekhez,
akkor milyen perceptuális teljesítményt várunk el tle? Pozitív oldalról tekintve a
vizuális észlelés bizonyos alapvet folyamatai sértetlenek, azok is, melyek a
fényintenzitás változásának elzetes elemzésében játszanak szerepet. Ráadásul a
tárgyak más érzékel modalitásokból érkező információk segítségével is
azonosíthatók. Negatív oldalról fogalmazva pedig az ilyen beteg súlyos alakfeldolgozási
károsodásban szenved s képtelen a felmutatott tárgyakat lemásolni. Ugyanncsak nem
képes a tárgyakat pusztán vizuális információ alapján azonosítani.
Ahogyan Ellis és Young (1988) áttekintése világosan megmutatja, vannak olyan
agysérült emberek, akiknek perceptuális károsodásai pontosan a fenti problémákra
emlékeztetnek. Van például egy beteg, S, akit Benson és Greenberg (1969) vizsgált. Ez
a beteg bizonyos perceptuális képességeket megőrzött a vizuális modalitásban, amit
pontosan jelez az, hogy képes volt viszonylag kis fényesség különbségeket észlelni és
arra is képes volt, hogy biztonsággal eligazodjon a kórházban, ahol éppen lakott.
Bizonyos tárgyakat is azonosítani tudott, feltéve ha a megfelelő nem vizuális (hallási
vagy tapintási) információk is rendelkezésre álltak. Szöges ellentétben ezekkel e
képeségekkel azonban S rendkívül nehezen tudott pusztán a vizuális információ
alapján tárgyakat azonosítani. Problémái az alak- és tárgyészleléssel kapcsolatosan
olyan súlyosak voltak, hogy még egyszerű alakzatokat sem tudott lemásolni, s még azt
is képtelen volt eldönteni, hogy négy alakzat közül melyik volt azonos egy adott
mintával.
S perceptuális teljesítménye nyilvánvalóan mutatta, hogy többé már nem volt
képes forma- és alakfeldolgozási képességeit alkalmazni, melyek a 2.5 D vázlat
létrehozását meghatározzzák. Megmaradt vizuális képességei azonban arra utaltak,
hogy még képes volt az els vázlat legalább megközelítő reprezentációját megalkotni.
Az az elképzelést, hogy az olyan betegek, mint S viszonylag sértetlen perceptuális
képességekkel rendelkeznek, nem fogadta széleskör egyetértés. Campion és Latto
(1985) megvizsgáltak egy beteget, RC-t, aki sok tekintetben hasonlított S-re. Mindkét
beteg szénmonoxid mérgezést szenvedett egy baleset során, nagyon gyenge
teljesítményt mutatott a vizuális tárgyfelismerésben, de más modalitásokban nem, és
néhány alapvető vizuális képesség mindkettben megmutatkozott. Felfedezték, hogy
RC látómezejében számos kis vakfolt volt, s valószínleg ezek a kis vak területek voltak
felelsek a csökkent tárgyészlelési képességekért.
Összefoglalva, két iskola létezik, mely megpróbál megfelelő magyarázatot adni
az olyan perceptuális hiányosságokra, mint amilyenekkel S és RC rendelkezik. Az egyik
lehetőség az, hogy az ilyen perceptuális problémák főként a forma- és alakfeldolgozás
szintjén jelentkeznek, egy másik pedig az, hogy a 2.5 D vázlat létrehozásával
kapcsolatos problémák más, alapvető szintű perceptuális károsodásokban
gyökereznek. Nagyon valószín, hogy az alapvet perceptuális károsodások (pl. RC
vak területe) néha a tárgyfelismerést teszik tönkre. Az a tény azonban, hogy az ilyen
károsodások mértéke nem nagyon függ össze a tárgyészlelés problémáival (pl. Ellis és
Young, 1988) arra utal, hogy a károsodott tárgyészlelésrl nem adhatunk számot
pusztán szenzoros hiányosságok alapján.
A 3 D model reprezentációval kapcsolatos problémák
A Marr (1982) által javasolt modell szerint elméletileg fennáll az a lehetőség, hogy az
agysérült betegeknek problémát okoz a tárgyfelismerés, amikor a 2.5 D vázlatot át kell
alakítani a a 3 D modell reprezentációba. Milyen teljesítményt várhatunk el az ilyen
betegek esetében? Lehet, hogy vizuálisan bemutatott tárgyakat képesek viszonylag
pontosan lerajzolni, mivel ez a képesség csak egy megfelelő 2.5 D vázlatot igényel.
Szokatlan szögekből felmutatott tárgyak esetében azonban igen nagy nehézségekkel
járna a felismerés, mert a betegekben hiányzik az a képesség, mely alapján a
megfigyeli nézőponton alapuló 2.5 D vázlatot a tárgyközpontú 3 D modell
reprezentációba át tudják alakítani. Végezetül ha a szemantikai tudás a tárgyakról
sértetlen, akkor az ilyen betegek talán fel tudnak ismerni olyan tárgyakat, melyeket a
legjellemzőbb szögből látnak. Ilyen körülmények között hasonlít a 2.5 D vázlat
leginkább a 3 D modell reprezentációra, s így a reprezentációk közötti tranformáció
nehézsége a minimálisra csökken.
Azokat a betegeket, akik legalább is megközelítleg mgfelelnek ennek a
leírásnak, Warrington és Taylor (1978) vizsgálta részletesen. A betegek poszterior
sérüléseket szenvedtek a jobb oldali agyféltekében. Warrington és Taylor (1978)
tárgyakról készített képpárokat használt, melyeken ugyanaz a tárgy szokásos és
szokatlan szögekből volt fényképezve. Warrington és Taylor (1978) nem definiálta
nagyon pontosan, hogy mi volt a különbség a "szokásos" és "szokatlan" között. A
lényeg azonban az, hogy a tárgyak szokatlan vagy nem konvencionális nézete
nagyobb transzformációkat tesz szükségessé a 3 D modell reprezentáció
megalkotásában, mint a szokásos nézetek. Egy vasaló szokásos nézetét pédául felülről
fényképezték, míg a szokatlan nézetet úgy, hogy csak a vasaló alsó része és a fogó
egy része volt látható.
Az egyik kísérletben a fényképeket egyenként mutatták meg. Az agysérült
betegek aránylag jól tudták azonosítani a szokásos vagy konvencionális nézetben
fényképezett tárgyakat, de sokkal rosszab volt a teljesítményük, amikor ugyanazokat a
tárgyakat szokatlan nézetből mutatták. Egy másik tesztben sokkal drámaibb
bizonyítékokat találtak a betegek problémáit illetően. Fényképeket párokban mutattak
(az egyiket szokásos, a másikat pedig szokatlan nézetben), és a betegeknek azt kellett
eldönteni, hogy a két fénykép ugyanazt a tárgyat ábrázolta-e. A betegek nagyon
gyengén teljesítettek ebben a feladatban. Ezt azt jelzi, hogy nehéznek találták a
szokatlan nézetből fényképezett tárgy azonosítását még akkor is, amikor a megszokot
nézet azonosítása alapján tudták, hogy mi lehet az a dolog.
Az a tény, hogy Warrington és Taylor (1978) kísérletében a betegek jól
teljesítettek a megszokott nézetben fényképezett tárgyak esetében azt sugallja, hogy a
tárgyészlelésben szerepet játszó legtöbb folyamat sértetlen maradt. Jelentősen
gyengébb teljesítményük a szokatlan nézetből ábrázolt tárgyak esetében valószínűleg
azzal magyarázható, hogy nehezen tudják a 2.5 D vázlatot a 3 D modell
reprezentációba átalakítani.
Humphreys és Riddoch (1984, 1985) rámutatott, hogy egy tárgy nézete legalább
két módon lehet szokatlan. Egyrészt azért, mert a tárgy valamely megkülönböztető
jegye el van rejtve a negfigyelő elöl, másrészt azért, mert a tárgy le van rövidítve a
képen, s így nehéz meghatározni a fő nyúlási tengelyét. Ennek megfelelően
Humphreys és Riddoch (1984, 1985) olyan képeket használtak, melyeken néhány
szokatlan nézetben egy megkülönböztet jegyet rejtettek el, másokban pedig rövidítést
alkalmaztak. Két feladat volt: tárgy megnevezése és tárgyak összevetése. Ugyanannak
a tárgyról két képet mutattak meg, valamint egy harmadik tárgyét is, mely egy
vizuálisan hasonló félrevezető kép volt.
Humphreys és Riddoch (1984, 1985) négy betegtől nyert adatokat a két
feladatban, mindegyiküknek hátsó sérülése volt a jobb féltekében. A betegek
alapvetően igen gyengén teljesítettek a rövidített képek esetében, de akkor nem,
amikor egy megkülönböztet jegy volt elrejtve. Hogyan viszonyulnak ezek az
eredmények Marr (1982) tárgyészlelésre és tárgyfelismerésre vonatkozó elméleti
modelljéhez? Marr és Nishihara (1978) szerint a rövidítés különösen megnehezíti a 3 D
modell reprezentáció létrehozását, és úgy tnik, hogy ez az adatok legmegfelelőbb
magyarázata.

Összetettebb perceptuális problémák

Az eddigiekben olyan betegeket vettünk szemügyre, akiknek világosan látható


károsodásaik voltak a tárgyfelismeréshez szükséges bizonyos folyamatok esetében.
Vannak olyan betegek is, akinkek problémáiról viszont nem könnyű számot adni Marr
(1982) elmélete alapján. Bizonyos betegek nagyon gyengék a tárgyfelismerésben
annak ellenére, hogy a felismerésben lényeges folyamatok nagyrészt sértetlenek.
Humphreys és Riddoch (1987) például megvizsgáltak egy beteget, HJA-t, akinek egy
szélütést követően komoly nehézségei voltak a tárgyfelismeréssel. Még ha képes is volt
egy tárgyat azonosítani, a feladat általában 20-30 másodpercet vett igénybe. A 2.5 D
vázlat reprezentációjának létrehozása azonban valószínleg sértetlen maradt, amit az
bizonyított, hogy tárgyakról készült rajzokat le tudott másolni. Ugyancsak jól tudott 3 D
model reprezentációkat alkotni abban az értelemben, hogy képes volt ugyanazon tárgy
rövidített nézeteit tipikus nézetekkel összekapcsolni. Ráadásul a tárgyakkal kapcsolatos
szemantikus tudása is sértetlennek bizonyult. Jó meghatározásokat tudott adni
tárgyakról (még olyanokról is, melyeket nem volt képes felismerni), s emlékezetbl
nagyon pontos rajzokat tudott készíteni tárgyakról.
Hogyan tudunk számot adni HJA problémáiról a megnevezéses feladatokban,
feltéve, hogy alapvető perceptuális készségei és szemantikus tudása lényegében
sértetlenek voltak? A válasz egy részben az lehet, hogy a beteg által létrehozott
perceptuális reprezentációk sokszor nem fértek hozzá a szemantikus rendszerben
tárolt releváns információhoz. Humphreys és Riddoch (1987) azonban azt feltételezte,
hogy HJA nehézségei a vizuális információ integrációjának problémájára vezethetők
vissza. Szerintük azért tartott olyan sokáig azonosítani azokat a tárgyakat, melyeket
HJA végül is meg tudott nevezni, mert azzal küszködött, hogy hogyan lehet egymáshoz
kapcsolni az ingerek jellemzőit.
Összefoglalva, HJA esete elméleti szempontból igen jelentős. Arra utal, hogy az
információ integrációja a vizuálisan észlelt tárgyak esetében sokkal nagyobb szerepet
játszhat a tárgyfelismerésben, mint azt sokan korábban gondolták. Ennek a
felismerésnek közvetlen következményei vannak a tárgyfelismerés elméleteire.
Ahogyan Ellis és Young (1988) rámutatott, az optikus afázia néven ismert
jelenség is elméleti jelentőséggel bír. Az optikus afáziában szenvedő betegek meg
tudják nevezni azokat a tárgyakat, melyeket megérintettek, és mimikával jelezni tudják,
hogy a látott tárgyak mire használhatók. Viszont nagyon nehezen tudnak tárgyakat
megnevezni pusztán azon az alapon, hogy látták őket.
Hogy megérthessük, mi is történik az optikus afázia esetében, érdemes
szemügyre venni az Ellis és Young (1988) által kidolgozott elméleti keretet.
Véleményük szerint a tárolt tárgyakkal kapcsolatosan három különböz információ
játszik szerepet a tárgyfelismerésben:
*Tárgyfelismerési egységek: Minden ismert tárgynak megfelel egy
tárgyfelismerési egység, mely a tárgy szerkezeti tualjdonságairól
tartalmaz információkat.

*Szemantikus rendszer: Ez a rendszer a tárgy jelentésérl tartalmaz információt.

*Beszéd kimeneti lexikon: Ez az egység a tárgyak neveirl ad információt.

*Ellis és Young (1988) véleménye szerint a vizuálisan megmutatott tárgyakról


szóló tárolt információhoz soros módon, egymásután férhetünk hozzá
pontosan a fent leírt sorrendben. Ezért például egy tárgy nevét csak
azután tudjuk elhívni a tárból, miután a releváns tárgyfelismerési
egységhez és a releváns szemantikai információhoz hozzáfértünk.

Riddoch és Humphreys (1987) megvizsgáltak egy beteget, JB-t, akinél a


klasszikus optikus afázia szimptómáit figyelhették meg. Azonfelül felfedezték, hogy a
beteg teljesen normális teljesítményt ért el, amikor azt kellett eldöntenie, hogy bizonyos
rajzolt vonalak valóságos vagy értelmetlen tárgyakat ábrázoltak-e. Ez arra utal, hogy
hozzá tudott férni a releváns tárgyfelismerési egységekhez, amikor valóságos tárgyak
rajzait mutatták neki. Akkor viszont miért volt neki olyan nehéz tárgyakat azonosítani
vagy megnevezni? Ellis és Young (1988) szerint a tárgyfelismerési egységek és a
szemantikai rendszer között lév kapcsolatok sérülhettek meg. Ezt támasztják alá egy
másik kutatás eredményei, melyekrl Riddoch és Humpphreys (1987) számol be. Azt
találták, hogy JB nagyon nehezen tudott emlékezetből tárgyakat rajzolni még akkor is,
ha emlékezett a tárgyhoz kapcsolódó releváns szemantikai információkra. Ez viszont
azt mutatja, hogy nehezen tudott a szemantikai rendszerből a tárgyfelismerési
egységekhez hozzáférni, ami összhangban van azzal a feltételezéssel, hogy a két
rendszer közötti kapcsolatok sérültek meg.
Hogyan volt képes JB mimikával érzékeltetni a vizuálisan bemutaott tárgyak
használatát, ha olyan nehezen tudott csak hozzáférni a szemantikai rendszerhez és a
beszéd kimeneti lexikonjához? Lehetséges (vö. Ellis és Young, 1988), hogy
kapcsolatok vannak a tárgyfelismerési egységek és az a rendszer között, mely az
arcjáték mködésért felelős, s így arcjátékkal kifejezhető egy tárgy használatának módja
anélkül, hogy szükségszeren használki kellene a szemantikus rendszert.
Ahogyan erre Ellis és Young (1988, 56. lap) rámutatott: "Az optikus afázia arra
késztet bennünket, hogy sokkal gondosabban értékeljük azokat a különböző
információkat, melyeket a látott tárgyakból kapunk." Az a tény, hogy az optikus
afáziában szenvedők bizonyos fajta információkhoz a tárgyakról (pl. tárgyak
megnevezése esetében) elég könnyen hozzá tudnak férni arra utal, hogy számos
különböző tárolási rendszer raktároz tárgyakkal kapcsolatos információkat.

Összefoglalás

A tárgyfelismerés leghatásosabb elmélete a néhai David Marr által kidolgozott elmélet.


Marr arra tett igen ambíciózus kiísérletet, hogy a pszichológiai és a neurofiziológiai
adatokat egységes komputációs elméletbe integrálja. Kutatásai azt bizonyítják, hogy a
tárgyfelismerés sokkal összetettebb dolog, mint azt a legtöbb pszichológus feltételezte.
Marr (1982) szerint az észlelési folyamat során három egymást követ reprezentáció
jön létre: az els vázlat; a 2.5 D vázlat és a 3 D modell reprezentáció. Elég sokat
tudunk már az els vázlat jellemzirl, de a a két másik reprezentáció esetében
számos részlet még nem világos.
A kognitív neuropszichológia résszletesen igazolta azt a nézetet, hogy számos
külömböző folyamat és összetevő játszik szerepet a tárgyfelismerésben. Marr (1982)
állítása, miszerint a megfigyelők fokozatosan egyre teljesebb perceptuális
reprezentációkat hoznak létre, széleskör támogatást nyert a kognitív neuropszichológia
kísérleti adatai alapján. Bizonyos agysérült betegek azonban olyan károsodásokban
szenvednek a térgyfelismerés tekintetében, melyek arra engednek következtetni, hogy
sokkal több figyelmet kell szentelnünk a tárgyakról elraktározott információkra, melyeket
a tárgyfelismerésben hasznosítunk. Ez talán nem válhatott egyértelművé a normális
kísérleti személyekkel folytatott kísérletek alapján, akik minden, a tárgyakkal
kapcsolatos releváns információhoz rendszerint nagy pontossággal és gyorsan
hozzáférnek.
Végezetül meg kell jegyeznünk, hogy a tárgyfelismerés kutatása eléggé
korlátozott abban az értelemben, hogy középpontjában jellemzően egyetlen izolált tárgy
felismerése áll. Természetes körülmények között egy tárgyat viszont rendszerint csak
mint a vizuális környezet egy részét észleljük. A vizuális környezet további részei
kontextuális információt szolgáltatnak, ami - ezt korábban már láthattuk - szisztematikus
módon befolyásolja a tárgy felismerését.

You might also like