Professional Documents
Culture Documents
Korpusna Skripta
Korpusna Skripta
Prekid od 30 godina 1
zaslužan samo jedan čovjek: Noam Chomsky (NCh)
– Syntactic structures, (1955/57) Aspects of the Theory of Syntax (1965): mijenja perspektivu
istraživanja: empirizam→racionalizam
empirizam
– pristup objektu istraživanja (j. građi) temelji se na obradi vanjskih podataka (tekstova tj.
korpusa)
• promatranje “prirodno”-pojavljujućih podataka (“spontano”)
• rečenica X ovjerena je postava jezika Y ako u korpusu možemo pronaći potvrdu za njenu
ovjerenost i/li samu tu rečenicu
racionalizam
– pristup objektu istraživanja temelji se na introspekciji
• razviti teoriju j koja ne opisuje samo vanjske učinke ljudske uporabe j
• nego i teoriju koja bi opisala kako se čovjek doista jezikom služi
Prekid od 30 godina 2
obezvrjeđuje korpus kao izvor potvrda:
– NCh: “korpus za lingviste nikad ne može biti korisno pomagalo jer lingvist mora tražiti
model competence a ne performance”
– performance, kao realizacija competence, podložna je sporadičnim varijacijama = čimbenici
različiti od competence mogu na nju utjecati
• pamćenje...
• pijanac...
• afazičar...
– NCh: korpus je skup ostvarenih iskaza koji su loša osnova za modeliranje competence ⇒
korpus je stoga loš izvor za sintaktičku teoriju
Prekid od 30 godina 3
NCh pomiče predmet lingvističkoga istraživanja
– s apstraktnih jezičnih opisa na
– teorije koje “odražavaju psihičku realnost” tj. kognitivno upotrebljive modele Jezika
sukob i revolucionarno rješenje NCh-a:
– jezik = konačan ili beskonačan skup rečenica?
– “rana” corp-lin (američki deskriptivisti)
• jezik = konačan, samo ga treba pobrojati (naivno)
– TGG definira gramatiku kao stroj za proizvodnju beskonačnoga broja rečenica
• konačan skup pravila kojima se proizvodi beskonačan skup rečenica
⇒ u jezičnom se opisu ne smije isključiti i introspekcija
⇒ korpus ne smije biti isključivi izvor podataka u j. opisu
Dizajn korpusa 1
nije zadatak lingvista!
nego sociologa kulture, kulturnih antropologa...
– jezično orijentiranih društvenih znanosti koje istražuju tokove i uloge tekstova/medija u
društvu
– u praksi (barem kod prvih korpusa): lingvisti su odabirali tekstove
odabir tekstova koji ulaze u korpus = diskutabilna točka
– uvijek podložan kritici
praktično rješenje: uz svaki korpus navesti popis izvora
– mora biti potpun i javan
– uravnoteženost i reprezentativnost korpusa mora se moći neovisno procijeniti
Uzorkovanje i reprezentativnost 1
kad se istražuje neki jezični varijetet onda možemo:
1. istražiti sve iskaze (tekstove) na tom jezičnom varijetetu
2. napraviti uzorak tog jezičnoga varijeteta i istraživati njega
1. je rijetko kad moguće obaviti
– osim kod zatvorenog korpusa
• korpus mrtvih jezika s malim brojem zapisa
• korpus ukupnoga djela mrtvog pisca
2. najčešće rješenje (uključuje postupke uzorkovanja)
– odabir uzoraka koji najbolje reprezentiraju jezični varijetet
• npr. za istraživanje hrvatskoga iz 19. st. nećete uzeti samo Šenoine i
Kovačićeve romane (čak ne biste smjeli uzeti samo romane)
• uzeti širok spektar različitih autora i žanrova koji se tek zajedno mogu smatrati “prosječnim”
i reprezentativnim uzorkom za istraživanje odabrana varijeteta
Uzorkovanje i reprezentativnost 2
Brown korpus
– sastavljen na Sveučilištu Brown, Maryland, SAD
– Nelson Francis & Karel Kučera, 1967.
– prvi računalno podržani korpus opsega 1.000.000 riječi
– 15 žanrova
– 500 uzoraka po 2000 riječi
– raspon: 1961.
Kontrastivni englesko-hrvatski paralelni korpus
– Rudolf Filipović, Zavod za lingvistiku FFZG-a, 1968 (!)
– Brown korpus prepolovljen: 500 uzoraka po 1000 riječi
– preveden između 1968. i 1969.
– uporaba za kontrastivna istraživanja u YSCEC projektu
– prva uporaba računalnoga korpusa u kontrastivnoj lingvistici u povijesti lingvistike
Uzorkovanje i reprezentativnost 3
Jednomilijunski korpus HKJ (“Mogušev korpus”)
– Zavod za lingvistiku FFZG-a, 1976-1996.
– prvi milijunski korpus nekoga slavenskog jezika (1976)
– opseg: 1.000.000 riječi
– raspon: 1936-1978.
– 5 žanrova/potkorpusa po 200.000 riječi
• drama (D), novine (N), proza (P), stihovi (S), udžbenici (U)
– različiti principi uzorkovanja
• DPS: 20 x 10.000
• N: 8 x 25.000
• U: 58 x 3.100
Uzorkovanje i reprezentativnost 4
istraživanje veličine uzorka (5.000, 10.000, 20.000 )
– porast uzorka s 5.000 na 10.000: rast broja novih riječi 60,7%
– porast uzorka s 10.000 na 20.000: rast broja novih riječi 9,8%
- uzorak od 10.000 riječi = bolja disperzija među raznim autorima
Opseg
Koliko riječi ima u elipsi?
Ženom, žene, ženu, ženom
3 različita značenja riječi ‘riječ’:
– 4 pojavnice, 3 različnice, 2 leme , 1 lema
opseg korpusa mjeri se u pojavnicama
– skraćeno: 1 Mw = 1.000.000 pojavnica, 5 Kw = 5.000 pojavnica
Raspon
vremenski razmak između nastarijeg i najmlađeg teksta uvrštenog u korpus
koje se vrijeme računa kao vrijeme nastanka teksta?
– vrijeme pisanja
– vrijeme prevođenja
– vrijeme objavljivanja
sinkronijski presjek jezičnoga stanja
– nema jednostavna odgovora
– često 1 godina (tzv. “jednogodišnji” korpusi)
– može i do desetak-dvadesetak godina
dijakronijski raspon
– raspon u korpusu obuhvaća više (desetaka ili stotina) godina
Vrste korpusa 1
pokrivenost jezičnih varijeteta
– općejezični korpusi
• “pokriva” jezik u cjelini
– specijalizirani korpusi
• “pokriva” samo jedan jezični varijetet (npr. funkcionalni stil, žargon, razdoblje...)
medij
– korpusi pisanoga jezika
– korpusi govorenoga jezika
raspon
– sinkronijski (1 do cca 10-20 godina)
– dijakronijski (više od 10-20 godina)
Vrste korpusa 2
broj jezika
– jednojezični korpusi
– višejezični korpusi (2-, 3-, 4-, ... -jezični)
sastav višejezičnih korpusa
– usporedni korpusi (parallel corpora)
• tekstovi na 2 ili više jezika (izvornik + prijevod(i))
– usporedivi korpusi (comparable corpora)
• korpusi sastavljeni prema istim parametrima i principima
• višejezični (raznoidiomski) ili jednojezični (istoidiomski)
izvornost tekstova
– korpusi izvornih tekstova
– korpusi prijevoda
Vrste korpusa 3
konačnost
– konačan korpus
• zatvoreni korpus
• otvoreni korpus ⇒ odluka o veličini pripada sastavljaču (financijsko ograničenje!)
– monitor korpus (John Sinclair)
• posebna vrsta korpusa koji se puni i prazni
• uvijek iste veličine
opseg
– mali (do 1.000.000 riječi)
– srednji (više od 1.000.000 riječi)
– veliki (preko 100.000.000 riječi)
– Sinclair: “The more, the better!”
Generacije korpusa
I. generacija
1967-1985. ------ 1 Mw ------ Brown, LOB (Lancaster-Oslo-Bergen), 1M HKJ,...
II. generacija
1985-1990. ------- 10-20 Mw ------ COBUILD, itd.
III. generacija
1990- ------ 100 Mw ------- BoE >500, IDS >170, Pisa >100, BNC, CNC, SNC, HNC, PNC,
FIDA...
Obilježavanje korpusa
dva oblika zapisa korpusa
– neobilježeni korpus = goli, obični tekst
– obilježeni korpus = dopunjen raznim (lingvističkim) podatcima
obilježavanje korpusa
– postupak pretvaranja inherentnih i implicitnih jezičnih podataka sadržanih u tekstu u
eksplicitne
• Vidio sam (Gl, 1l, jd, perf, mr, VS)
• dvije (Br, ak, mn, žr)
• žene (Im, ak, mn, žr)
• . (int. t.)
korisnost korpusa značajno raste s količinom njegove obilježenosti
obilježeni korpus postaje pretraživ repozitorij jezičnih podataka ⇐ zbog eksplicitnosti
obilježavanja
Obilježavanje korpusa 2
7 pravila obilježavanja
– odstranjivanjem obilježavanja mora se moći doći do običnoga teksta
– obilježavanja se moraju moći izdvojiti i pohraniti odvojeno od teksta
– legenda obilježavanja mora biti dostupna korisniku
– mora se znati tko je i kada obavio obilježavanje korpusa (ručno/strojno, jedan/više
ljudi/strojeva/programa)
– korpusi nisu nepogrešivo obilježeni (obilježavanje = korisno sredstvo, alat; svako
obilježavanje = interpretacija)
– način obilježavanja mora biti teorijski neutralan
– ni jedan način obilježavanja ne može se a priori smatrati standardnim
Statističke metode 1
polazi se od brojanja = frekvencija
– fonemska/grafemska razina
– razina riječi
• pojavnica
• različnica
• lema
• kombinacije riječi
– sintaktička razina
• sintagmatske strukture
– dijelovi rečenica: NP, VP, PP itd.
– vrste odnosa ovisnosti (atribucija, prijedložnost itd.)
• rečenične strukture (tipologija S-ova)
– semantička razina
• semovi (komponencijalna analiza)
• značenja cijelih riječi
– npr. broj sinonima, antonima itd.
Statističke metode 2
frekvencija
– apsolutna = apsolutni iznosi u nekom korpusu
– relativna = u omjerima tj. frekvencija u normaliziranim veličinama (normalizacija =
svođenje korpusa na zajedničku mjeru)
– iskazivanje omjera relativna frq = apsolutna frq / ukupna veličina korpusa
– % (p.c.), ‰ (p.m.), 1M (p.p.m.)
Statističke metode 3
frekvencije: pojedinačne <> kombinacije jezičnih jedinica
pronalaženje statistički relevantnih kombinacija izračunom statističkih mjera
kolokacije: statistički značajno supojavljivanje dvije ili više jezičnih jedinica u korpusu
kontingencijske tablice = način modeliranja kolokacija
krava ¬ krava
muzara 59 6
¬ muzara 8 570934
– broj rečenica u kojima se pojavljuju krava i muzara u korpusu
– χ2 test = 456400 ⇒ par krava/muzara = dobar kandidat za kolokaciju
Statističke metode 3
uzajamna obavijesnost (mutual information)
– govori o očekivanosti pojavljivanja druge riječi nakon prve
Statističke metode 4
t-score
– daje mjeru različitosti
– primjena kad su već pronađeni različiti kandidati za kolokacije
– primjena s ciljem razlikovanja različitih kombinacija
– primjer za izračunavanje kolokacija powerful support i strong support
– σ = standardna devijacija
– strong support je za 13 standardnih devijacija vjerojatniji od powerful support
z-score
– sličan t-score
Statističke metode 7
pronalaženje prijevodnih ekvivalenata
također kontingencijske tablice
cow ¬ cow
vache 59 6
¬ vache 8 570934
– broj rečenica u kojima se pojavljuju cow i vache u eng-fra paralelnom korpusu
– χ2 = 456400 ⇒ par cow/vache = dobar kandidat za prijevodni ekvivalent
Statističke metode 19
klasične statističke tehnike
– multivarijantna analiza
– faktorska analiza
– interkorelacijska matrica
– cluster analiza
probabilistički jezični modeli = temeljeni na statističkom pristupu
– skriveni Markovljevi lanci (Hidden Markov Models)
– n-grami