Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 26

Korpusna – skripta

Uvod 1: računalna lingvistika


􀁺 korpusna lingvistika (corp-lin) u široj perspektivi
􀁺 naziv:
lingvistika + računalo = računalni “tretman” jezika
– lingvistika na prvom mjestu
􀁺 računalo: u mnogim znanostima danas nezaobilazan alat (fizika, (bio-)kemija, ekonomija,
promet...)
– prikupljanje primarnih podataka (= empirija)
– oblikovanje sekundarnih podataka i teorija (= modeliranje)
􀁺 računalni “tretman” jezika zanimljiv:
– lingvistima
– informatičarima
􀁺 interdisciplinarnost

Uvod 2: strojna obradba jezika


􀁺 naziv 2:
računalo + lingvistika = računalni “tretman” jezika
– obrada podataka tj. informatika na prvom mjestu
􀁺 razlika:
– lingvisti: računalna lingvistika (computational linguistics, CL)
• računala u jezičnom opisu (modeli j. pod-sustava)
• cilj: što kvalitetniji opis jezičnih činjenica
– informatičari: obrada prirodnoga jezika (natural language
processing, NLP)
• računala u obradi prirodnojezičnih podataka
• vrsta strojne obradbe teksta
• cilj: što učinkovitije, što brže i sa što manjim utroškom računalnih resursa obraditi (jezične)
podatke
Uvod 3: računalna lin. u lin.
􀁺 je li računalna lingvistika grana lingvistike?
􀁺 DA i NE!
􀁺 NE: grana poput fonologije, morfologije, sintakse...
– organiziraju se oko definicije predmeta istraživanja
(jezične jedinice na određenim jezičnim razinama)
– pokušavaju opisati/objasniti neki vid njihove jezične porabe
􀁺 DA: posebna metodologija
– primjenljiva na jezične jedinice na svim jezičnim razinama
– dopušta razliku između računalne i neračunalne:
• leksikografije
• sintakse...

Uvod 4: korpusna lin. i računalna lin.


􀁺 je li korpusna lingvistika dio računalne lingvistike?
􀁺 DA i NE!
􀁺 DA: poput računalne lingvistike
– posebna metodologija
– primjenljiva na jezične jedinice na svim jezičnim razinama
– neizostavna pri osiguranju građe za
• empirijsko prikupljanje primarnih jezičnih podataka
• provjeru istraživačkih hipoteza
􀁺 NE:
– u povijesti lingvistike postoje proučavanja korpusa bez uporabe računala: tzv. “rana”
korpusna lingvistika
– danas: gotovo ne postoje ne-računalni korpusi

Uvod 5: korpusna lin. i leksikografija


􀁺 je li korpusna lingvistika dio leksikografije?
􀁺 NE: tradicionalna leksikografija
– bavi se popisom značenjâ riječi
– prikupljanje natuknica uz potvrde u tekstovima
􀁺 DA: suvremena leksikografija
– ne postoji bez ozbiljnih (računalnih) korpusa
– prikupljanje iz korpusa
• natuknica
• značenja
• morfološko-sintaktičkih “ponašanja”
• stilske motiviranosti uporabe (funkcionalni stilovi)
• frazema, idioma, kolokacija...

Povijest korpusne lingvistike 1


􀁺 3 ključna razdoblja u razvitku corp-lin
– do kraja 1950-tih: polazno razdoblje za razvitak corp-lin
– slijedi prekid od 30-tak godina
– nastavak 1980-tih s pojačanom uporabom računala
􀁺 “rana” korpusna lingvistika
– 1. razdoblje
– naziv ne postoji u tadanjim radovima
– obuhvaća lin. istraživanja korpusolika iz današnjega očišta
􀁺 “terenska” lingvistika
– Franz Boas, opisi indijanskih jezika
– američki distribucionalisti (yaleska škola), deskriptivisti
– korpus = metodološko središte njihova jezičnoga opisa

“Rana” korpusna lingvistika 1


􀁺 usvajanje jezika (UJ)
– dnevne bilješke opažatelja (1876-1926)
– Preyer 1889, Stern 1924: danas još uvijek polazni podaci za UJ
– povećani broj djece u sinkronijskom presjeku (1924-1957):
McCarthy 1954
– longitudinalne studije tj. studije koje prate dijete od “početka do kraja” (funkcioniraju i
danas); Brown 1973, Bloom 1970
􀁺 provjera pravopisnih varijanata
– Johannes Käding (1897) Häufigkeitswörterbuch der detuschen Sprache, Steglitz
– prvi čestotni rječnik u povijesti, ručno izrađen
– korpus od 11.000.000 riječi
– čestota i distribucija slova, dvoslova, troslova itd.

“Rana” korpusna lingvistika 2


􀁺 jezična pedagogija
– TEFL studije: vokabulari za učenike temeljeni na frekvenciji
– dobiveni iz korpusno obradenih tekstova
– Thorndike 1921, Palmer 1933, Fries & Traver 1940, Bongers 1947
􀁺 komparativna lingvistika
– Eaton 1940: uspoređivao frekvencije značenja riječi u niz, fra, nje, tal tekstovima
– i za današnje uvjete razrađena studija

“Rana” korpusna lingvistika 3


􀁺 sintaktička i semantička istraživanja
– Lorge 1949: semantički opis na temelju Eatona
– Fries 1952: rani primjer opisne eng gramatike temeljene na korpusu transkribiranih
telefonskih razgovora
• današnji korpusi pretežito temeljeni na pisanim tekstovima ⇒ Friesa tek treba nadmašiti
• prethodi današnjim korpusno-temeljenim gramatikama:
(npr. Quirk 1985)
– Gougenheim i dr. 1956: korpus transkribiranoga govornoga fra
• 275 informanata
• opis čestote leksičkih i gramatičkih odabira

Prekid od 30 godina 1
􀁺 zaslužan samo jedan čovjek: Noam Chomsky (NCh)
– Syntactic structures, (1955/57) Aspects of the Theory of Syntax (1965): mijenja perspektivu
istraživanja: empirizam→racionalizam
􀁺 empirizam
– pristup objektu istraživanja (j. građi) temelji se na obradi vanjskih podataka (tekstova tj.
korpusa)
• promatranje “prirodno”-pojavljujućih podataka (“spontano”)
• rečenica X ovjerena je postava jezika Y ako u korpusu možemo pronaći potvrdu za njenu
ovjerenost i/li samu tu rečenicu
􀁺 racionalizam
– pristup objektu istraživanja temelji se na introspekciji
• razviti teoriju j koja ne opisuje samo vanjske učinke ljudske uporabe j
• nego i teoriju koja bi opisala kako se čovjek doista jezikom služi

Prekid od 30 godina 2
􀁺 obezvrjeđuje korpus kao izvor potvrda:
– NCh: “korpus za lingviste nikad ne može biti korisno pomagalo jer lingvist mora tražiti
model competence a ne performance”
– performance, kao realizacija competence, podložna je sporadičnim varijacijama = čimbenici
različiti od competence mogu na nju utjecati
• pamćenje...
• pijanac...
• afazičar...
– NCh: korpus je skup ostvarenih iskaza koji su loša osnova za modeliranje competence ⇒
korpus je stoga loš izvor za sintaktičku teoriju

Prekid od 30 godina 3
􀁺 NCh pomiče predmet lingvističkoga istraživanja
– s apstraktnih jezičnih opisa na
– teorije koje “odražavaju psihičku realnost” tj. kognitivno upotrebljive modele Jezika
􀁺 sukob i revolucionarno rješenje NCh-a:
– jezik = konačan ili beskonačan skup rečenica?
– “rana” corp-lin (američki deskriptivisti)
• jezik = konačan, samo ga treba pobrojati (naivno)
– TGG definira gramatiku kao stroj za proizvodnju beskonačnoga broja rečenica
• konačan skup pravila kojima se proizvodi beskonačan skup rečenica
􀁺 ⇒ u jezičnom se opisu ne smije isključiti i introspekcija
􀁺 ⇒ korpus ne smije biti isključivi izvor podataka u j. opisu

Prekid od 30 godina 4: argumenti NCh


􀁺 korpus ne modelira competence nego performance
􀁺 cilj teorije jezika
– nije brojanje i opisivanje pojava iz područja performance
– nego introspekcija i objašnjenje jezične competence
􀁺 kad bi brojanje i opisivanje performance i bilo ciljem lin
– to nije izvedivo jer prirodni jezik nije konačan
– pobrojavanje rečenica nikad ne može dovesti do j. opisa
– kako konačan korpus može opisati beskonačan jezik?
􀁺 introspekcija
– jedino sredstvo kojim se ovjerenost dosad nepotvrđenih postava može provjeriti

Prekid od 30 godina 5: dodatni args


􀁺 dodatni argumenti (ne-Nch)
– temeljni problem obradbe jezičnih podataka
• stanje informacijske tehnologije krajem 1950-tih
– pretraživanje Kädingova 11.000.000 riječi velikog korpusa samo očima?
• zahtijeva vremena i novca, a podložno je normalnim ljudskim pogreškama
– “rana” corp-lin
• nije imala dovoljno tehnoloških pomagala za kvalitativan pomak u obradi jezične građe

Prekid od 30 godina 6: korpusni args


􀁺 korpusno utemeljena istraživanja nikad nisu u potpunosti napuštena
– fonetika
• skupljanje prirodnih* podataka nikad nije ni moglo prestati
• introspekcija daje malo ili nikakve rezultate na području fonetike
– usvajanje jezika
• teško je očekivati introspektivnu tj. metajezičnu tvrdnju od 13-mjesečne bebe
• introspekcija je moguća tek nakon razvitka svijesti o metajezičnome
􀁺 corp-lin postojala je i 1960-tih tj. 1970-tih, no kao manjinska metodologija u lingvistici
– 1967. Brown korpus: prvi računalni korpus opsega 1.000.000 riječi

Prekid od 30 godina 7: korpusni args


􀁺 zašto bi se nakon NCh-a netko uopće bavio korpusima?
􀁺 prirodni podaci: podložni su interpersonalnoj provjeri
􀁺 introspekcija: intrapersonalna
– introspektivni podatak nije provjerljiv od strane druge osobe tj. istraživača
– razlika: privatno / javno
• javlja se kao problem i u psihološkim istraživanjima
– apsurd: odgovor od informanta
• “da, tako se može reći, ali ja to nikad ne kažem tako”

Prekid od 30 godina 8: korpusni args


􀁺 NCh zapostavlja bitan podatak iz korpusa
– podatak o frekvenciji promatrane jezične jedinice
􀁺 frekvencijski podaci ne postoje u jezičnoj introspekciji
– ljudsko poimanje frekvencije u potpunosti je iskrivljeno
􀁺 frekvencijski se podaci mogu prikupiti jedino iz korpusa
􀁺 ispuštanje podatka o frekvenciji neke jezične jedinice
– zapuštanje stvarne jezične činjenice?
􀁺 korpusni podaci
– pouzdaniji (interpersonalno provjerljivi, objektivniji)
– dopuštaju sustavniji pristup jezičnoj analizi
– sir Francis Galton: “dok se pojave iz bilo koje grane znanja ne podvrgnu mjerenju i brojanju
ne zaslužuju steći dignitet znanosti”
Prekid od 30 godina 9: korpusni args
􀁺 NCh odmjerio “od oka”:
– 95% svih rečenica iz korpusa = neovjereno
􀁺 Labov (1969):
– većina je rečenica u nekom ko-tekstu i kon-tekstu ovjerena
􀁺 => korpus
– nije vreća neovjerenih rečenica
– nego skup organiziranih tekstovnih odsječaka koji, prepuni komunikacijski ovjerenih
rečenica, donose značajnu jezičnu građu (podatke za jezičnu analizu)
􀁺 bez korpusa
– nemoguće je doći do usporedivih kvantitativnih jezičnih podataka

Prekid od 30 godina 10: sažetak


􀁺 dio NCh kritike mora biti ublažen:
– jezik = beskonačan
– jezični ostvaraj (performance) = osim competance podložan i drugim čimbenicima
– !ali zanemarivenje kvantitativnih podataka = zanemarivanje jezičnih činjenica
􀁺 pravi recept za jezično istraživanje:
– korpusna evidencija i istraživačka introspekcija = komplementarne metode
– obje su nužne u kvalitetnom jezičnom opisu
􀁺 jezični opis = popis + propis
= korpus (rječnik) + gramatika

Korpus: metodološki konstrukt


􀁺 prirodnom se jeziku ne može pristupiti izravno već isključivo preko njegova ostvaraja tj.
teksta
􀁺 korpus = metodološki konstrukt
– kojim istraživač jezika postulira da istraživanjem pravilnosti i zakonitosti u korpusu,
zapravo istražuje pravilnosti i zakonitosti u jeziku kojim je korpus ostvaren
􀁺 korpusi
– osiguravaju sustavno prikupljanja primarnih jezičnih podataka
– omogućuju interpretaciju primarnih podataka tj. stvaranje sekundarnih podataka (= modela)
i njihovu provjeru

Zbirka tekstova / korpus 1


􀁺 pojedinačni tekstovi
– osnovna građa za mnoga književnoteorijska i lin. istraživanja
– npr. stilistička analiza pjesme ili romana
– npr. analiza razgovora talk-showa na radiju ili TV
– ...
􀁺 je li dovoljno skupiti sve tekstove koji nas zanimaju na hrpu i... to je to!?
􀁺 !pojam korpusa danas podrazumijeva nešto više od ad hoc sastavljene nakupine
pojedinačnih tekstova

Zbirka tekstova / korpus 2


􀁺 zbirka tekstova
– svaki skup tekstova skupljen prema nekim kriterijima
􀁺 korpus
– skup tekstnih odsječaka koji su odabrani i skupljeni prema eksplicitnim lingvističkim
kriterijima s ciljem da čine jezični uzorak
• odsječak teksta / čitav tekst?
• odsječak = dijelovi teksta dovoljno veliki da čine korpusni uzorak
• citat tj. potvrda (najčešće 1 rečenica) nije korpusni uzorak (premalen)
• eksplicitni lingvistički kriteriji = unaprijed jasno određeni i poštivani pri sastavljanju
korpusa

Zbirka tekstova / korpus 3


􀁺 računalni korpus
– korpus kodiran na standardan i dosljedan način s nakanom da bude računalno pohranjen i
pretraživan
• korpusi su postojali i prije računala, ali tek su ona omogućila“procvat” corp-lin
• lagan, brz i jeftin dohvat podataka inherentno sadržanih u tekstu
Sastavljanje korpusa
􀁺 4 skupa problema/odluka moraju razriješiti pri sastavljanju korpusa:
– odabir izvornih tekstova
– uzorkovanje i reprezentativnost
– korpusni parametri (opseg, raspon...)
– računalni zapis korpusa
􀁺 početak svakog korpusnoga istraživanja jezika = sastavljanje korpusa
– odluke koje se donose pri sastavljanju korpusa utječu na sve što se s tim korpusom i
njegovim istraživanjem zbiva
– rezultati su upravo onoliko dobri koliko je dobro sam korpus sastavljen
– !zapamtiti: korpus = metodološki konstrukt

Dizajn korpusa 1
􀁺 nije zadatak lingvista!
􀁺 nego sociologa kulture, kulturnih antropologa...
– jezično orijentiranih društvenih znanosti koje istražuju tokove i uloge tekstova/medija u
društvu
– u praksi (barem kod prvih korpusa): lingvisti su odabirali tekstove
􀁺 odabir tekstova koji ulaze u korpus = diskutabilna točka
– uvijek podložan kritici
􀁺 praktično rješenje: uz svaki korpus navesti popis izvora
– mora biti potpun i javan
– uravnoteženost i reprezentativnost korpusa mora se moći neovisno procijeniti

Uzorkovanje i reprezentativnost 1
􀁺 kad se istražuje neki jezični varijetet onda možemo:
1. istražiti sve iskaze (tekstove) na tom jezičnom varijetetu
2. napraviti uzorak tog jezičnoga varijeteta i istraživati njega
􀁺 1. je rijetko kad moguće obaviti
– osim kod zatvorenog korpusa
• korpus mrtvih jezika s malim brojem zapisa
• korpus ukupnoga djela mrtvog pisca
􀁺 2. najčešće rješenje (uključuje postupke uzorkovanja)
– odabir uzoraka koji najbolje reprezentiraju jezični varijetet
• npr. za istraživanje hrvatskoga iz 19. st. nećete uzeti samo Šenoine i
Kovačićeve romane (čak ne biste smjeli uzeti samo romane)
• uzeti širok spektar različitih autora i žanrova koji se tek zajedno mogu smatrati “prosječnim”
i reprezentativnim uzorkom za istraživanje odabrana varijeteta

Uzorkovanje i reprezentativnost 2
􀁺 Brown korpus
– sastavljen na Sveučilištu Brown, Maryland, SAD
– Nelson Francis & Karel Kučera, 1967.
– prvi računalno podržani korpus opsega 1.000.000 riječi
– 15 žanrova
– 500 uzoraka po 2000 riječi
– raspon: 1961.
􀁺 Kontrastivni englesko-hrvatski paralelni korpus
– Rudolf Filipović, Zavod za lingvistiku FFZG-a, 1968 (!)
– Brown korpus prepolovljen: 500 uzoraka po 1000 riječi
– preveden između 1968. i 1969.
– uporaba za kontrastivna istraživanja u YSCEC projektu
– prva uporaba računalnoga korpusa u kontrastivnoj lingvistici u povijesti lingvistike

Uzorkovanje i reprezentativnost 3
􀁺 Jednomilijunski korpus HKJ (“Mogušev korpus”)
– Zavod za lingvistiku FFZG-a, 1976-1996.
– prvi milijunski korpus nekoga slavenskog jezika (1976)
– opseg: 1.000.000 riječi
– raspon: 1936-1978.
– 5 žanrova/potkorpusa po 200.000 riječi
• drama (D), novine (N), proza (P), stihovi (S), udžbenici (U)
– različiti principi uzorkovanja
• DPS: 20 x 10.000
• N: 8 x 25.000
• U: 58 x 3.100

Uzorkovanje i reprezentativnost 4
􀁺 istraživanje veličine uzorka (5.000, 10.000, 20.000 )
– porast uzorka s 5.000 na 10.000: rast broja novih riječi 60,7%
– porast uzorka s 10.000 na 20.000: rast broja novih riječi 9,8%
- uzorak od 10.000 riječi = bolja disperzija među raznim autorima

Opseg
􀁺 Koliko riječi ima u elipsi?
Ženom, žene, ženu, ženom
􀁺 3 različita značenja riječi ‘riječ’:
– 4 pojavnice, 3 različnice, 2 leme , 1 lema
􀁺 opseg korpusa mjeri se u pojavnicama
– skraćeno: 1 Mw = 1.000.000 pojavnica, 5 Kw = 5.000 pojavnica

Raspon
􀁺 vremenski razmak između nastarijeg i najmlađeg teksta uvrštenog u korpus
􀁺 koje se vrijeme računa kao vrijeme nastanka teksta?
– vrijeme pisanja
– vrijeme prevođenja
– vrijeme objavljivanja
􀁺 sinkronijski presjek jezičnoga stanja
– nema jednostavna odgovora
– često 1 godina (tzv. “jednogodišnji” korpusi)
– može i do desetak-dvadesetak godina
􀁺 dijakronijski raspon
– raspon u korpusu obuhvaća više (desetaka ili stotina) godina

Vrste korpusa 1
􀁺 pokrivenost jezičnih varijeteta
– općejezični korpusi
• “pokriva” jezik u cjelini
– specijalizirani korpusi
• “pokriva” samo jedan jezični varijetet (npr. funkcionalni stil, žargon, razdoblje...)
􀁺 medij
– korpusi pisanoga jezika
– korpusi govorenoga jezika
􀁺 raspon
– sinkronijski (1 do cca 10-20 godina)
– dijakronijski (više od 10-20 godina)

Vrste korpusa 2
􀁺 broj jezika
– jednojezični korpusi
– višejezični korpusi (2-, 3-, 4-, ... -jezični)
􀁺 sastav višejezičnih korpusa
– usporedni korpusi (parallel corpora)
• tekstovi na 2 ili više jezika (izvornik + prijevod(i))
– usporedivi korpusi (comparable corpora)
• korpusi sastavljeni prema istim parametrima i principima
• višejezični (raznoidiomski) ili jednojezični (istoidiomski)
􀁺 izvornost tekstova
– korpusi izvornih tekstova
– korpusi prijevoda

Vrste korpusa 3
􀁺 konačnost
– konačan korpus
• zatvoreni korpus
• otvoreni korpus ⇒ odluka o veličini pripada sastavljaču (financijsko ograničenje!)
– monitor korpus (John Sinclair)
• posebna vrsta korpusa koji se puni i prazni
• uvijek iste veličine
􀁺 opseg
– mali (do 1.000.000 riječi)
– srednji (više od 1.000.000 riječi)
– veliki (preko 100.000.000 riječi)
– Sinclair: “The more, the better!”

Generacije korpusa
􀁺 I. generacija
1967-1985. ------ 1 Mw ------ Brown, LOB (Lancaster-Oslo-Bergen), 1M HKJ,...
􀁺 II. generacija
1985-1990. ------- 10-20 Mw ------ COBUILD, itd.
􀁺 III. generacija
1990- ------ 100 Mw ------- BoE >500, IDS >170, Pisa >100, BNC, CNC, SNC, HNC, PNC,
FIDA...

Rezultati pretrage korpusa 1


􀁺 3 osnovne vrste podataka iz korpusa
– evidencija (= popis jezičnih jedinica)
– frekvencija (= popis jezičnih jedinica s brojanjem)
– relacija (= odnos prema drugim jezičnim jedinicama)
􀁺 popisi fonema/grafema
– jednoslovi, dvoslovi, troslovi, ... n-slovi
􀁺 popisi riječi
– abecedni rječnici (unaprijedni ili odostražni)
– frekvencijski rječnici (= čestotnici)
􀁺 popisi kombinacija riječi
– kolokacije, idiomi, fraze...

Rezultati pretrage korpusa 1


􀁺 3 osnovne vrste podataka iz korpusa
– evidencija (= popis jezičnih jedinica)
– frekvencija (= popis jezičnih jedinica s brojanjem)
– relacija (= odnos prema drugim jezičnim jedinicama)
􀁺 popisi fonema/grafema
– jednoslovi, dvoslovi, troslovi, ... n-slovi
􀁺 popisi riječi
– abecedni rječnici (unaprijedni ili odostražni)
– frekvencijski rječnici (= čestotnici) 􀃂
􀁺 popisi kombinacija riječi
– kolokacije, idiomi, fraze...
􀁺 popisi rečeničnih struktura
– tree banks
􀁺 popisi značenja...

Rezultati pretrage korpusa 2


􀁺 konkordancije
– popisi riječi iz nekoga korpusa s ko-tekstnom okolinom u kojoj su se pojavile
– off- / on-line
• papir, mikrofilm, CD-ROM
• računalne mreže
– opseg
• djelomične (prema nekom ulaznom uvjetu, npr. bab*)
• potpune (puni popis svih riječi nekoga korpusa)
– oblici
• KWIC (Keyword in context) = najčešći
• KWAL (Keyword and line) = rjeđe

Obilježavanje korpusa
􀁺 dva oblika zapisa korpusa
– neobilježeni korpus = goli, obični tekst
– obilježeni korpus = dopunjen raznim (lingvističkim) podatcima
􀁺 obilježavanje korpusa
– postupak pretvaranja inherentnih i implicitnih jezičnih podataka sadržanih u tekstu u
eksplicitne
• Vidio sam (Gl, 1l, jd, perf, mr, VS)
• dvije (Br, ak, mn, žr)
• žene (Im, ak, mn, žr)
• . (int. t.)
􀁺 korisnost korpusa značajno raste s količinom njegove obilježenosti
􀁺 obilježeni korpus postaje pretraživ repozitorij jezičnih podataka ⇐ zbog eksplicitnosti
obilježavanja

Obilježavanje korpusa 2
􀁺 7 pravila obilježavanja
– odstranjivanjem obilježavanja mora se moći doći do običnoga teksta
– obilježavanja se moraju moći izdvojiti i pohraniti odvojeno od teksta
– legenda obilježavanja mora biti dostupna korisniku
– mora se znati tko je i kada obavio obilježavanje korpusa (ručno/strojno, jedan/više
ljudi/strojeva/programa)
– korpusi nisu nepogrešivo obilježeni (obilježavanje = korisno sredstvo, alat; svako
obilježavanje = interpretacija)
– način obilježavanja mora biti teorijski neutralan
– ni jedan način obilježavanja ne može se a priori smatrati standardnim

Obilježavanje korpusa: formati


􀁺 postojalo je više načina obilježavanja corp.
􀁺 jedan od dulje prisutnih = COCOA (OCP)
– parovi < i > zagrada
– prvi elt u zagradi = ime varijable
– ostali elts u zagradi = vrijednost varijable npr.
• <A Miroslav Krleža>
• <P 2>
• <S 1345>

Obilježavanje korpusa: formati 2


􀁺 danas standardiziran oblik obilježavanja korpusa s pomoću umjetnih jezika za obilježavanje
􀁺 SGML (Structural Generalised Markup Language)
– TEI (Text Encoding Initiative)
• ACL, ALLC, ACH smjernice/preporuke
– CES (Corpus Encoding Standard)
􀁺 XML (eXtended Markup Lanugage)
– danas praktički preuzeo ulogu SGML-a
– TEI P5 (= TEI u XML obliku)
– XCES (CES u XML obliku)
􀁺 obilježavanje strukturnih elemenata teksta s pomoću otvornih i zatvornih oznaka
􀁺 kratki tečaj XML-a: www.hnk.ffzg.hr/xml_ws01

Obilježavanje korpusa: dokument


􀁺 svaki pojedinačni tekst/uzorak u korpusu = XML dokument u skladu s XCES-om
XML dokument = zaglavlje + tijelo teksta
􀁺 zaglavlje (header) = podatci o tekstu
􀁺 tijelo teksta (body) = dio dokumenta sa samim tekstom
􀁺 podatci u zaglavlju
– opseg teksta
– osoba odgovorna za digitalnu inačicu
– autor: dob, spol
– žanr: prema zadanoj klasifikaciji
– bibliografska referencija na papirnatu inačicu teksta

Obilježavanje korpusa: DTD


􀁺 koji se XML elementi i kako smiju kombinirati
– propisuje DTD (Document Type Definition)

Obilježavanje korpusa: standardi


􀁺 TEI već definira neke uobičajene tipove dokumenata
– pjesničke zbirke, pisma, drame, romani itd.
􀁺 DTD koristi i računalni program (XML-parser) koji provjerava je li doista neki dokument
usklađen s DTD-om
􀁺 EU 1990. pokrenula projekt EAGLES
– Expert Advisory Groups on Language Engineering Standards
– 1996. predložen EU standard za kodiranje jezičnih resursa
– CES za korpuse
– XCES 2000. (Ide, Veronis, 2000)

Obilježavanje korpusa: vrste


􀁺 nelingvističko obilježavanje
– strukturni dijelovi teksta/dokumenta
• nadnaslov, naslov, podnaslov, međunaslov
• autor(i)
• potpis, referencija, motto, zaziv, prolog, epilog, predgovor...
• odlomci
􀁺 lingvističko obilježavanje
– uzima u obzir jezične razine i jezične jedinice na tim razinama
– segmentacija: razdioba na jezične jedinice
• na rečenice
• na riječi (pojavnice)
– označavanje: dodjeljivanje lingvističkoga opisa jezičnim jedinicama
Obilježavanje korpusa: rečenice
􀁺 segmentacija na rečenice
– umetanje <S>...</S> oznaka
– algoritam za prepoznavanje granica rečenica
• pronaći granicu, umetnuti </S> <S>
• granica: [“|«|’]*(.|!|?)[“|«|’]* [“|»|`|’]*(A-Ž) ubacivanje </S> <S>
• izbacivanje </S> <S> za znane iznimke: dr., mr., msgr., g., gđa., gđica., o., sv., itd.
􀁺 problem pravopisnih rješenja u pojedinim jezicima
– npr. njem. imenice; hrv: redni brojevi
– 28% brojeva s točkom su i redni i kraj rečenice

Obilježavanje korpusa: opojavničenje


􀁺 segmentacija na pojavnice tj. opojavničenje (tokenisation)
– ulaz: XML
• izlaz 1: tab-datoteka kao ulaz u bazu podataka (vertikalizirani korpus)
• izlaz 2: opojavničeni XML

Obilježavanje korpusa: opojavničenje


􀁺 izlaz 2: opojavničeni XML

Obilježavanje korpusa: označavanje


􀁺 označavanje vrsta riječi (POS tagging) = dodjeljivanje vrste riječi svakoj pojavnici
– razlikovanje žene (imenica od glagola)
– u konkordanciji umjesto 150 primjera žene kao N prolazite samo kroz 20 gdje je V
– skupovi oznaka (tagsets)
• EAGLES: MulText preporuka za sve EU jezike
• MulTextEast (1994-1996): preporuka za CEE jezike (hr 1998)
– osim POS i MSD označavanje
– http://nl.ijs.si/ME
– ručno <> strojno

Obilježavanje korpusa: lematizacija


􀁺 Lematizacija
– postupak dodjeljivanja svakoj pojavnici polaznog, natukničkog oblika = leme

Obilježavanje korpusa: označavanje 3


􀁺 morfosintaktičko označavanje (MSD tagging)
= dodjeljivanja vrijednosti morfosintaktičkih kategorija svakoj pojavnici
– MSD = morphosyntactic description
– dodavanje ostalih gramatičkih kategorija osim vrste riječi
– razlikovanje žene (Gjd, Nmn, Amn, Vmn)
– skupovi oznaka (MSD tagsets)

Obilježavanje korpusa: homografija


􀁺 sraz na unigramskoj razini
􀁺 dobivanje “homografske težine” svake pojavnice i različnice
􀁺 homografija izrazito visoka

Obilježavanje korpusa: homografija 2


􀁺 dvije vrste homografije
– unutarnja
– vanjska
􀁺 “unutarnja” homografija (unutar iste vrste riječi)
– pojavnica može predstavljati različite oblike (tj. MSD interpretacije) iste leme
– izrazito prisutna u slavenskim jezicima (sinkretizam padeža itd.)
– npr. u hrvatskih imenica dativ, lokativ i instrumental množine
Oblik lema MSD
gledateljima gledatelj Ncmpd
gledateljima gledatelj Ncmpl
gledateljima gledatelj Ncmpi
– osobito prisutna u hrvatskih pridjeva
• 227 pravilnih oblika s različitim MSD-ima
• 37 različnica
• odnos = 1 različnica : 6,14 oblika (tj. različitih MSD-a)

Obilježavanje korpusa: homografija 3


􀁺 “vanjska” homografija (između različitih vrsta riječi)
– pojavnica može predstavljati različite oblike (tj. MSD interpretacije) dvije ili više lema
– izrazito prisutna u flektivno siromašnim jezicima (eng, fra...)
– hrvatski primjer:
cijenjene cijeniti Vmps-pfp
cijenjene cijenjen Afpfpan
cijenjene cijenjen Afpfpay
cijenjene cijenjen Afpfpnn
cijenjene cijenjen Afpfpny
cijenjene cijenjen Afpfpvy
cijenjene cijenjen Afpfsgn
cijenjene cijenjen Afpfsgy
cijenjene cijenjen Afpfsgy
cijenjene cijenjen Afpmpay
– za hrvatski nismo imali nikakve statistike o “homografskoj opterećenosti”

Obilježavanje korpusa: označavanje 4


􀁺 označivači (taggers)
– temeljeni na pravilima (rule-base) <> probabilistički (statistički)
– učeći <> rigidni
– točnost (prvi oko 77%, današnji oko 97%) = ovisna o
• skupu oznaka
• jeziku
– sustavi:
• Greene & Rubin 1971 (TAGGIT) 77%
• Lancaster (CLAWS) 95%
• Eric Brill 97% WinBrill
• Torsten Brants (TnT) 97%

Obilježavanje korpusa: sintaksa


􀁺 prepoznavanje rečenične strukture
– subjekt, predikat, objekt…

Obilježavanje korpusa: sintaksa 2


􀁺 Parsanje (parsing)
– parser = program koji analizira sintaktičku strukturu rečenica
– tipovi parsera
• plitki (shallow)
• duboki (deep, full)
• robustni (robust)
􀁺 sintaktički označeni korpusi = banke stabala (treebanks)

Obilježavanje korpusa: sintaksa 3


􀁺 parseri
– lijevogranajući (left-branching)
– desnogranajući (right-branching)

Obilježavanje korpusa: sintaksa 4


􀁺 problemi sintaktičke višeznačnosti

Obilježavanje korpusa: sintaksa 5


􀁺 generativne gramatike (generative grammars)
􀁺 gramatike ovisnosti (dependency grammars)
Obilježavanje korpusa: semantika
􀁺 2 osnove vrste
– rečenična semantika = obilježavanje semantičkih odnosa između dijelova rečenice/teksta
• agens, pacijens itd. (v. predikatni račun: baciti(dječak, lopta))
• FrameNet (Ch. Fillmore)
– leksička semantika = obilježavanje semantičkih osobina samih riječi
• obilježavanje smisla riječi
• WordNet (Miller 1990): Princeton

Obilježavanje korpusa: ostale vrste


􀁺 Diskursno obilježavanje
– anafora
􀁺 Fonetska transkripcija
􀁺 Prozodija

Statističke metode 1
􀁺 polazi se od brojanja = frekvencija
– fonemska/grafemska razina
– razina riječi
• pojavnica
• različnica
• lema
• kombinacije riječi
– sintaktička razina
• sintagmatske strukture
– dijelovi rečenica: NP, VP, PP itd.
– vrste odnosa ovisnosti (atribucija, prijedložnost itd.)
• rečenične strukture (tipologija S-ova)
– semantička razina
• semovi (komponencijalna analiza)
• značenja cijelih riječi
– npr. broj sinonima, antonima itd.

Statističke metode 2
􀁺 frekvencija
– apsolutna = apsolutni iznosi u nekom korpusu
– relativna = u omjerima tj. frekvencija u normaliziranim veličinama (normalizacija =
svođenje korpusa na zajedničku mjeru)
– iskazivanje omjera relativna frq = apsolutna frq / ukupna veličina korpusa
– % (p.c.), ‰ (p.m.), 1M (p.p.m.)

Statističke metode 3
􀁺 frekvencije: pojedinačne <> kombinacije jezičnih jedinica
􀁺 pronalaženje statistički relevantnih kombinacija izračunom statističkih mjera
􀁺 kolokacije: statistički značajno supojavljivanje dvije ili više jezičnih jedinica u korpusu
􀁺 kontingencijske tablice = način modeliranja kolokacija
krava ¬ krava
muzara 59 6
¬ muzara 8 570934
– broj rečenica u kojima se pojavljuju krava i muzara u korpusu
– χ2 test = 456400 ⇒ par krava/muzara = dobar kandidat za kolokaciju

Statističke metode 3
􀁺 uzajamna obavijesnost (mutual information)
– govori o očekivanosti pojavljivanja druge riječi nakon prve

– P = vjerojatnost pojavljivanja (= relativna frekvencija u korpusu)


– lošiji rezultati s niskofrekventnim pojavama
􀁺 Dice koeficijent
– govori o očekivanosti supojavljivanja obiju riječi zajedno

– znatno bolji rezultati i s niskofrekventnim pojavama

Statističke metode 4
􀁺 t-score
– daje mjeru različitosti
– primjena kad su već pronađeni različiti kandidati za kolokacije
– primjena s ciljem razlikovanja različitih kombinacija
– primjer za izračunavanje kolokacija powerful support i strong support
– σ = standardna devijacija
– strong support je za 13 standardnih devijacija vjerojatniji od powerful support
􀁺 z-score
– sličan t-score

Statističke metode 7
􀁺 pronalaženje prijevodnih ekvivalenata
􀁺 također kontingencijske tablice
cow ¬ cow
vache 59 6
¬ vache 8 570934
– broj rečenica u kojima se pojavljuju cow i vache u eng-fra paralelnom korpusu
– χ2 = 456400 ⇒ par cow/vache = dobar kandidat za prijevodni ekvivalent

Statističke metode 19
􀁺 klasične statističke tehnike
– multivarijantna analiza
– faktorska analiza
– interkorelacijska matrica
– cluster analiza
􀁺 probabilistički jezični modeli = temeljeni na statističkom pristupu
– skriveni Markovljevi lanci (Hidden Markov Models)
– n-grami

You might also like