Korpusna Skripta

Korpusna – skripta
Uvod 1: računalna lingvistika

􀁺 korpusna lingvistika (corp-lin) u široj perspektivi
􀁺 naziv:
lingvistika + računalo = računalni “tretman” jezika
– lingvistika na prvom mjestu
􀁺 računalo: u mnogim znanostima danas nezaobilazan alat (fizika, (bio-)kemija, ekonomija,
promet...)
– prikupljanje primarnih podataka (= empirija)
– oblikovanje sekundarnih podataka i teorija (= modeliranje)
􀁺 računalni “tretman” jezika zanimljiv:
– lingvistima
– informatičarima
􀁺 interdisciplinarnost
Uvod 2: strojna obradba jezika

􀁺 naziv 2:
računalo + lingvistika = računalni “tretman” jezika
– obrada podataka tj. informatika na prvom mjestu
􀁺 razlika:
– lingvisti: računalna lingvistika (computational linguistics, CL)
• računala u jezičnom opisu (modeli j. pod-sustava)
• cilj: što kvalitetniji opis jezičnih činjenica
– informatičari: obrada prirodnoga jezika (natural language
processing, NLP)
• računala u obradi prirodnojezičnih podataka
• vrsta strojne obradbe teksta
• cilj: što učinkovitije, što brže i sa što manjim utroškom računalnih resursa obraditi (jezične)
podatke
Uvod 3: računalna lin. u lin.
􀁺 je li računalna lingvistika grana lingvistike?
􀁺 DA i NE!
􀁺 NE: grana poput fonologije, morfologije, sintakse...
– organiziraju se oko definicije predmeta istraživanja
(jezične jedinice na određenim jezičnim razinama)
– pokušavaju opisati/objasniti neki vid njihove jezične porabe
􀁺 DA: posebna metodologija
– primjenljiva na jezične jedinice na svim jezičnim razinama
– dopušta razliku između računalne i neračunalne:
• leksikografije
• sintakse...
Uvod 4: korpusna lin. i računalna lin.

􀁺 je li korpusna lingvistika dio računalne lingvistike?
􀁺 DA i NE!
􀁺 DA: poput računalne lingvistike
– posebna metodologija
– primjenljiva na jezične jedinice na svim jezičnim razinama
– neizostavna pri osiguranju građe za
• empirijsko prikupljanje primarnih jezičnih podataka
• provjeru istraživačkih hipoteza
􀁺 NE:
– u povijesti lingvistike postoje proučavanja korpusa bez uporabe računala: tzv. “rana”
korpusna lingvistika
– danas: gotovo ne postoje ne-računalni korpusi
Uvod 5: korpusna lin. i leksikografija

􀁺 je li korpusna lingvistika dio leksikografije?
􀁺 NE: tradicionalna leksikografija
– bavi se popisom značenjâ riječi
– prikupljanje natuknica uz potvrde u tekstovima
􀁺 DA: suvremena leksikografija
– ne postoji bez ozbiljnih (računalnih) korpusa
– prikupljanje iz korpusa
• natuknica
• značenja
• morfološko-sintaktičkih “ponašanja”
• stilske motiviranosti uporabe (funkcionalni stilovi)
• frazema, idioma, kolokacija...
Povijest korpusne lingvistike 1

􀁺 3 ključna razdoblja u razvitku corp-lin
– do kraja 1950-tih: polazno razdoblje za razvitak corp-lin
– slijedi prekid od 30-tak godina
– nastavak 1980-tih s pojačanom uporabom računala
􀁺 “rana” korpusna lingvistika
– 1. razdoblje
– naziv ne postoji u tadanjim radovima
– obuhvaća lin. istraživanja korpusolika iz današnjega očišta
􀁺 “terenska” lingvistika
– Franz Boas, opisi indijanskih jezika
– američki distribucionalisti (yaleska škola), deskriptivisti
– korpus = metodološko središte njihova jezičnoga opisa
“Rana” korpusna lingvistika 1

􀁺 usvajanje jezika (UJ)
– dnevne bilješke opažatelja (1876-1926)
– Preyer 1889, Stern 1924: danas još uvijek polazni podaci za UJ
– povećani broj djece u sinkronijskom presjeku (1924-1957):
McCarthy 1954
– longitudinalne studije tj. studije koje prate dijete od “početka do kraja” (funkcioniraju i
danas); Brown 1973, Bloom 1970
􀁺 provjera pravopisnih varijanata
– Johannes Käding (1897) Häufigkeitswörterbuch der detuschen Sprache, Steglitz
– prvi čestotni rječnik u povijesti, ručno izrađen
– korpus od 11.000.000 riječi
– čestota i distribucija slova, dvoslova, troslova itd.

􀁺 jezična pedagogija
– TEFL studije: vokabulari za učenike temeljeni na frekvenciji
– dobiveni iz korpusno obradenih tekstova
– Thorndike 1921, Palmer 1933, Fries & Traver 1940, Bongers 1947
􀁺 komparativna lingvistika
– Eaton 1940: uspoređivao frekvencije značenja riječi u niz, fra, nje, tal tekstovima
– i za današnje uvjete razrađena studija

􀁺 sintaktička i semantička istraživanja
– Lorge 1949: semantički opis na temelju Eatona
– Fries 1952: rani primjer opisne eng gramatike temeljene na korpusu transkribiranih
telefonskih razgovora
• današnji korpusi pretežito temeljeni na pisanim tekstovima ⇒ Friesa tek treba nadmašiti
• prethodi današnjim korpusno-temeljenim gramatikama:
(npr. Quirk 1985)
– Gougenheim i dr. 1956: korpus transkribiranoga govornoga fra
• 275 informanata
• opis čestote leksičkih i gramatičkih odabira
Prekid od 30 godina 1
􀁺 zaslužan samo jedan čovjek: Noam Chomsky (NCh)
– Syntactic structures, (1955/57) Aspects of the Theory of Syntax (1965): mijenja perspektivu
istraživanja: empirizam→racionalizam
􀁺 empirizam
– pristup objektu istraživanja (j. građi) temelji se na obradi vanjskih podataka (tekstova tj.
korpusa)
• promatranje “prirodno”-pojavljujućih podataka (“spontano”)
• rečenica X ovjerena je postava jezika Y ako u korpusu možemo pronaći potvrdu za njenu
ovjerenost i/li samu tu rečenicu
􀁺 racionalizam
– pristup objektu istraživanja temelji se na introspekciji
• razviti teoriju j koja ne opisuje samo vanjske učinke ljudske uporabe j
• nego i teoriju koja bi opisala kako se čovjek doista jezikom služi
􀁺 obezvrjeđuje korpus kao izvor potvrda:
– NCh: “korpus za lingviste nikad ne može biti korisno pomagalo jer lingvist mora tražiti
model competence a ne performance”
– performance, kao realizacija competence, podložna je sporadičnim varijacijama = čimbenici
različiti od competence mogu na nju utjecati
• pamćenje...
• pijanac...
• afazičar...
– NCh: korpus je skup ostvarenih iskaza koji su loša osnova za modeliranje competence ⇒
korpus je stoga loš izvor za sintaktičku teoriju
􀁺 NCh pomiče predmet lingvističkoga istraživanja
– s apstraktnih jezičnih opisa na
– teorije koje “odražavaju psihičku realnost” tj. kognitivno upotrebljive modele Jezika
􀁺 sukob i revolucionarno rješenje NCh-a:
– jezik = konačan ili beskonačan skup rečenica?
– “rana” corp-lin (američki deskriptivisti)
• jezik = konačan, samo ga treba pobrojati (naivno)
– TGG definira gramatiku kao stroj za proizvodnju beskonačnoga broja rečenica
• konačan skup pravila kojima se proizvodi beskonačan skup rečenica
􀁺 ⇒ u jezičnom se opisu ne smije isključiti i introspekcija
􀁺 ⇒ korpus ne smije biti isključivi izvor podataka u j. opisu
Prekid od 30 godina 4: argumenti NCh

􀁺 korpus ne modelira competence nego performance
􀁺 cilj teorije jezika
– nije brojanje i opisivanje pojava iz područja performance
– nego introspekcija i objašnjenje jezične competence
􀁺 kad bi brojanje i opisivanje performance i bilo ciljem lin
– to nije izvedivo jer prirodni jezik nije konačan
– pobrojavanje rečenica nikad ne može dovesti do j. opisa
– kako konačan korpus može opisati beskonačan jezik?
􀁺 introspekcija
– jedino sredstvo kojim se ovjerenost dosad nepotvrđenih postava može provjeriti
Prekid od 30 godina 5: dodatni args

􀁺 dodatni argumenti (ne-Nch)
– temeljni problem obradbe jezičnih podataka
• stanje informacijske tehnologije krajem 1950-tih
– pretraživanje Kädingova 11.000.000 riječi velikog korpusa samo očima?
• zahtijeva vremena i novca, a podložno je normalnim ljudskim pogreškama
– “rana” corp-lin
• nije imala dovoljno tehnoloških pomagala za kvalitativan pomak u obradi jezične građe
Prekid od 30 godina 6: korpusni args

􀁺 korpusno utemeljena istraživanja nikad nisu u potpunosti napuštena
– fonetika
• skupljanje prirodnih* podataka nikad nije ni moglo prestati
• introspekcija daje malo ili nikakve rezultate na području fonetike
– usvajanje jezika
• teško je očekivati introspektivnu tj. metajezičnu tvrdnju od 13-mjesečne bebe
• introspekcija je moguća tek nakon razvitka svijesti o metajezičnome
􀁺 corp-lin postojala je i 1960-tih tj. 1970-tih, no kao manjinska metodologija u lingvistici
– 1967. Brown korpus: prvi računalni korpus opsega 1.000.000 riječi

􀁺 zašto bi se nakon NCh-a netko uopće bavio korpusima?
􀁺 prirodni podaci: podložni su interpersonalnoj provjeri
􀁺 introspekcija: intrapersonalna
– introspektivni podatak nije provjerljiv od strane druge osobe tj. istraživača
– razlika: privatno / javno
• javlja se kao problem i u psihološkim istraživanjima
– apsurd: odgovor od informanta
• “da, tako se može reći, ali ja to nikad ne kažem tako”

􀁺 NCh zapostavlja bitan podatak iz korpusa
– podatak o frekvenciji promatrane jezične jedinice
􀁺 frekvencijski podaci ne postoje u jezičnoj introspekciji
– ljudsko poimanje frekvencije u potpunosti je iskrivljeno
􀁺 frekvencijski se podaci mogu prikupiti jedino iz korpusa
􀁺 ispuštanje podatka o frekvenciji neke jezične jedinice
– zapuštanje stvarne jezične činjenice?
􀁺 korpusni podaci
– pouzdaniji (interpersonalno provjerljivi, objektivniji)
– dopuštaju sustavniji pristup jezičnoj analizi
– sir Francis Galton: “dok se pojave iz bilo koje grane znanja ne podvrgnu mjerenju i brojanju
ne zaslužuju steći dignitet znanosti”
􀁺 NCh odmjerio “od oka”:
– 95% svih rečenica iz korpusa = neovjereno
􀁺 Labov (1969):
– većina je rečenica u nekom ko-tekstu i kon-tekstu ovjerena
􀁺 => korpus
– nije vreća neovjerenih rečenica
– nego skup organiziranih tekstovnih odsječaka koji, prepuni komunikacijski ovjerenih
rečenica, donose značajnu jezičnu građu (podatke za jezičnu analizu)
􀁺 bez korpusa
– nemoguće je doći do usporedivih kvantitativnih jezičnih podataka
Prekid od 30 godina 10: sažetak

􀁺 dio NCh kritike mora biti ublažen:
– jezik = beskonačan
– jezični ostvaraj (performance) = osim competance podložan i drugim čimbenicima
– !ali zanemarivenje kvantitativnih podataka = zanemarivanje jezičnih činjenica
􀁺 pravi recept za jezično istraživanje:
– korpusna evidencija i istraživačka introspekcija = komplementarne metode
– obje su nužne u kvalitetnom jezičnom opisu
􀁺 jezični opis = popis + propis
= korpus (rječnik) + gramatika
Korpus: metodološki konstrukt

􀁺 prirodnom se jeziku ne može pristupiti izravno već isključivo preko njegova ostvaraja tj.
teksta
􀁺 korpus = metodološki konstrukt
– kojim istraživač jezika postulira da istraživanjem pravilnosti i zakonitosti u korpusu,
zapravo istražuje pravilnosti i zakonitosti u jeziku kojim je korpus ostvaren
􀁺 korpusi
– osiguravaju sustavno prikupljanja primarnih jezičnih podataka
– omogućuju interpretaciju primarnih podataka tj. stvaranje sekundarnih podataka (= modela)
i njihovu provjeru
Zbirka tekstova / korpus 1

􀁺 pojedinačni tekstovi
– osnovna građa za mnoga književnoteorijska i lin. istraživanja
– npr. stilistička analiza pjesme ili romana
– npr. analiza razgovora talk-showa na radiju ili TV
– ...
􀁺 je li dovoljno skupiti sve tekstove koji nas zanimaju na hrpu i... to je to!?
􀁺 !pojam korpusa danas podrazumijeva nešto više od ad hoc sastavljene nakupine
pojedinačnih tekstova

􀁺 zbirka tekstova
– svaki skup tekstova skupljen prema nekim kriterijima
􀁺 korpus
– skup tekstnih odsječaka koji su odabrani i skupljeni prema eksplicitnim lingvističkim
kriterijima s ciljem da čine jezični uzorak
• odsječak teksta / čitav tekst?
• odsječak = dijelovi teksta dovoljno veliki da čine korpusni uzorak
• citat tj. potvrda (najčešće 1 rečenica) nije korpusni uzorak (premalen)
• eksplicitni lingvistički kriteriji = unaprijed jasno određeni i poštivani pri sastavljanju
korpusa

􀁺 računalni korpus
– korpus kodiran na standardan i dosljedan način s nakanom da bude računalno pohranjen i
pretraživan
• korpusi su postojali i prije računala, ali tek su ona omogućila“procvat” corp-lin
• lagan, brz i jeftin dohvat podataka inherentno sadržanih u tekstu
Sastavljanje korpusa
􀁺 4 skupa problema/odluka moraju razriješiti pri sastavljanju korpusa:
– odabir izvornih tekstova
– uzorkovanje i reprezentativnost
– korpusni parametri (opseg, raspon...)
– računalni zapis korpusa
􀁺 početak svakog korpusnoga istraživanja jezika = sastavljanje korpusa
– odluke koje se donose pri sastavljanju korpusa utječu na sve što se s tim korpusom i
njegovim istraživanjem zbiva
– rezultati su upravo onoliko dobri koliko je dobro sam korpus sastavljen
– !zapamtiti: korpus = metodološki konstrukt
Dizajn korpusa 1
􀁺 nije zadatak lingvista!
􀁺 nego sociologa kulture, kulturnih antropologa...
– jezično orijentiranih društvenih znanosti koje istražuju tokove i uloge tekstova/medija u
društvu
– u praksi (barem kod prvih korpusa): lingvisti su odabirali tekstove
􀁺 odabir tekstova koji ulaze u korpus = diskutabilna točka
– uvijek podložan kritici
􀁺 praktično rješenje: uz svaki korpus navesti popis izvora
– mora biti potpun i javan
– uravnoteženost i reprezentativnost korpusa mora se moći neovisno procijeniti
Uzorkovanje i reprezentativnost 1
􀁺 kad se istražuje neki jezični varijetet onda možemo:
1. istražiti sve iskaze (tekstove) na tom jezičnom varijetetu
2. napraviti uzorak tog jezičnoga varijeteta i istraživati njega
􀁺 1. je rijetko kad moguće obaviti
– osim kod zatvorenog korpusa
• korpus mrtvih jezika s malim brojem zapisa
• korpus ukupnoga djela mrtvog pisca
􀁺 2. najčešće rješenje (uključuje postupke uzorkovanja)
– odabir uzoraka koji najbolje reprezentiraju jezični varijetet
• npr. za istraživanje hrvatskoga iz 19. st. nećete uzeti samo Šenoine i
Kovačićeve romane (čak ne biste smjeli uzeti samo romane)
• uzeti širok spektar različitih autora i žanrova koji se tek zajedno mogu smatrati “prosječnim”
i reprezentativnim uzorkom za istraživanje odabrana varijeteta
􀁺 Brown korpus
– sastavljen na Sveučilištu Brown, Maryland, SAD
– Nelson Francis & Karel Kučera, 1967.
– prvi računalno podržani korpus opsega 1.000.000 riječi
– 15 žanrova
– 500 uzoraka po 2000 riječi
– raspon: 1961.
􀁺 Kontrastivni englesko-hrvatski paralelni korpus
– Rudolf Filipović, Zavod za lingvistiku FFZG-a, 1968 (!)
– Brown korpus prepolovljen: 500 uzoraka po 1000 riječi
– preveden između 1968. i 1969.
– uporaba za kontrastivna istraživanja u YSCEC projektu
– prva uporaba računalnoga korpusa u kontrastivnoj lingvistici u povijesti lingvistike
􀁺 Jednomilijunski korpus HKJ (“Mogušev korpus”)
– Zavod za lingvistiku FFZG-a, 1976-1996.
– prvi milijunski korpus nekoga slavenskog jezika (1976)
– opseg: 1.000.000 riječi
– raspon: 1936-1978.
– 5 žanrova/potkorpusa po 200.000 riječi
• drama (D), novine (N), proza (P), stihovi (S), udžbenici (U)
– različiti principi uzorkovanja
• DPS: 20 x 10.000
• N: 8 x 25.000
• U: 58 x 3.100
􀁺 istraživanje veličine uzorka (5.000, 10.000, 20.000 )
– porast uzorka s 5.000 na 10.000: rast broja novih riječi 60,7%
– porast uzorka s 10.000 na 20.000: rast broja novih riječi 9,8%
- uzorak od 10.000 riječi = bolja disperzija među raznim autorima
Opseg
􀁺 Koliko riječi ima u elipsi?
Ženom, žene, ženu, ženom
􀁺 3 različita značenja riječi ‘riječ’:
– 4 pojavnice, 3 različnice, 2 leme , 1 lema
􀁺 opseg korpusa mjeri se u pojavnicama
– skraćeno: 1 Mw = 1.000.000 pojavnica, 5 Kw = 5.000 pojavnica
Raspon
􀁺 vremenski razmak između nastarijeg i najmlađeg teksta uvrštenog u korpus
􀁺 koje se vrijeme računa kao vrijeme nastanka teksta?
– vrijeme pisanja
– vrijeme prevođenja
– vrijeme objavljivanja
􀁺 sinkronijski presjek jezičnoga stanja
– nema jednostavna odgovora
– često 1 godina (tzv. “jednogodišnji” korpusi)
– može i do desetak-dvadesetak godina
􀁺 dijakronijski raspon
– raspon u korpusu obuhvaća više (desetaka ili stotina) godina
Vrste korpusa 1
􀁺 pokrivenost jezičnih varijeteta
– općejezični korpusi
• “pokriva” jezik u cjelini
– specijalizirani korpusi
• “pokriva” samo jedan jezični varijetet (npr. funkcionalni stil, žargon, razdoblje...)
􀁺 medij
– korpusi pisanoga jezika
– korpusi govorenoga jezika
􀁺 raspon
– sinkronijski (1 do cca 10-20 godina)
– dijakronijski (više od 10-20 godina)
Vrste korpusa 2
􀁺 broj jezika
– jednojezični korpusi
– višejezični korpusi (2-, 3-, 4-, ... -jezični)
􀁺 sastav višejezičnih korpusa
– usporedni korpusi (parallel corpora)
• tekstovi na 2 ili više jezika (izvornik + prijevod(i))
– usporedivi korpusi (comparable corpora)
• korpusi sastavljeni prema istim parametrima i principima
• višejezični (raznoidiomski) ili jednojezični (istoidiomski)
􀁺 izvornost tekstova
– korpusi izvornih tekstova
– korpusi prijevoda
Vrste korpusa 3
􀁺 konačnost
– konačan korpus
• zatvoreni korpus
• otvoreni korpus ⇒ odluka o veličini pripada sastavljaču (financijsko ograničenje!)
– monitor korpus (John Sinclair)
• posebna vrsta korpusa koji se puni i prazni
• uvijek iste veličine
􀁺 opseg
– mali (do 1.000.000 riječi)
– srednji (više od 1.000.000 riječi)
– veliki (preko 100.000.000 riječi)
– Sinclair: “The more, the better!”
Generacije korpusa
􀁺 I. generacija
1967-1985. ------ 1 Mw ------ Brown, LOB (Lancaster-Oslo-Bergen), 1M HKJ,...
􀁺 II. generacija
1985-1990. ------- 10-20 Mw ------ COBUILD, itd.
􀁺 III. generacija
1990- ------ 100 Mw ------- BoE >500, IDS >170, Pisa >100, BNC, CNC, SNC, HNC, PNC,
FIDA...
Rezultati pretrage korpusa 1

􀁺 3 osnovne vrste podataka iz korpusa
– evidencija (= popis jezičnih jedinica)
– frekvencija (= popis jezičnih jedinica s brojanjem)
– relacija (= odnos prema drugim jezičnim jedinicama)
􀁺 popisi fonema/grafema
– jednoslovi, dvoslovi, troslovi, ... n-slovi
􀁺 popisi riječi
– abecedni rječnici (unaprijedni ili odostražni)
– frekvencijski rječnici (= čestotnici)
􀁺 popisi kombinacija riječi
– kolokacije, idiomi, fraze...

􀁺 3 osnovne vrste podataka iz korpusa
– evidencija (= popis jezičnih jedinica)
– frekvencija (= popis jezičnih jedinica s brojanjem)
– relacija (= odnos prema drugim jezičnim jedinicama)
􀁺 popisi fonema/grafema
– jednoslovi, dvoslovi, troslovi, ... n-slovi
􀁺 popisi riječi
– abecedni rječnici (unaprijedni ili odostražni)
– frekvencijski rječnici (= čestotnici) 􀃂
􀁺 popisi kombinacija riječi
– kolokacije, idiomi, fraze...
􀁺 popisi rečeničnih struktura
– tree banks
􀁺 popisi značenja...

􀁺 konkordancije
– popisi riječi iz nekoga korpusa s ko-tekstnom okolinom u kojoj su se pojavile
– off- / on-line
• papir, mikrofilm, CD-ROM
• računalne mreže
– opseg
• djelomične (prema nekom ulaznom uvjetu, npr. bab*)
• potpune (puni popis svih riječi nekoga korpusa)
– oblici
• KWIC (Keyword in context) = najčešći
• KWAL (Keyword and line) = rjeđe
Obilježavanje korpusa
􀁺 dva oblika zapisa korpusa
– neobilježeni korpus = goli, obični tekst
– obilježeni korpus = dopunjen raznim (lingvističkim) podatcima
􀁺 obilježavanje korpusa
– postupak pretvaranja inherentnih i implicitnih jezičnih podataka sadržanih u tekstu u
eksplicitne
• Vidio sam (Gl, 1l, jd, perf, mr, VS)
• dvije (Br, ak, mn, žr)
• žene (Im, ak, mn, žr)
• . (int. t.)
􀁺 korisnost korpusa značajno raste s količinom njegove obilježenosti
􀁺 obilježeni korpus postaje pretraživ repozitorij jezičnih podataka ⇐ zbog eksplicitnosti
obilježavanja
Obilježavanje korpusa 2
􀁺 7 pravila obilježavanja
– odstranjivanjem obilježavanja mora se moći doći do običnoga teksta
– obilježavanja se moraju moći izdvojiti i pohraniti odvojeno od teksta
– legenda obilježavanja mora biti dostupna korisniku
– mora se znati tko je i kada obavio obilježavanje korpusa (ručno/strojno, jedan/više
ljudi/strojeva/programa)
– korpusi nisu nepogrešivo obilježeni (obilježavanje = korisno sredstvo, alat; svako
obilježavanje = interpretacija)
– način obilježavanja mora biti teorijski neutralan
– ni jedan način obilježavanja ne može se a priori smatrati standardnim
Obilježavanje korpusa: formati

􀁺 postojalo je više načina obilježavanja corp.
􀁺 jedan od dulje prisutnih = COCOA (OCP)
– parovi < i > zagrada
– prvi elt u zagradi = ime varijable
– ostali elts u zagradi = vrijednost varijable npr.
• <A Miroslav Krleža>
• <P 2>
• <S 1345>
Obilježavanje korpusa: formati 2

􀁺 danas standardiziran oblik obilježavanja korpusa s pomoću umjetnih jezika za obilježavanje
􀁺 SGML (Structural Generalised Markup Language)
– TEI (Text Encoding Initiative)
• ACL, ALLC, ACH smjernice/preporuke
– CES (Corpus Encoding Standard)
􀁺 XML (eXtended Markup Lanugage)
– danas praktički preuzeo ulogu SGML-a
– TEI P5 (= TEI u XML obliku)
– XCES (CES u XML obliku)
􀁺 obilježavanje strukturnih elemenata teksta s pomoću otvornih i zatvornih oznaka
􀁺 kratki tečaj XML-a: www.hnk.ffzg.hr/xml_ws01
Obilježavanje korpusa: dokument

􀁺 svaki pojedinačni tekst/uzorak u korpusu = XML dokument u skladu s XCES-om
XML dokument = zaglavlje + tijelo teksta
􀁺 zaglavlje (header) = podatci o tekstu
􀁺 tijelo teksta (body) = dio dokumenta sa samim tekstom
􀁺 podatci u zaglavlju
– opseg teksta
– osoba odgovorna za digitalnu inačicu
– autor: dob, spol
– žanr: prema zadanoj klasifikaciji
– bibliografska referencija na papirnatu inačicu teksta
Obilježavanje korpusa: DTD

􀁺 koji se XML elementi i kako smiju kombinirati
– propisuje DTD (Document Type Definition)
Obilježavanje korpusa: standardi

􀁺 TEI već definira neke uobičajene tipove dokumenata
– pjesničke zbirke, pisma, drame, romani itd.
􀁺 DTD koristi i računalni program (XML-parser) koji provjerava je li doista neki dokument
usklađen s DTD-om
􀁺 EU 1990. pokrenula projekt EAGLES
– Expert Advisory Groups on Language Engineering Standards
– 1996. predložen EU standard za kodiranje jezičnih resursa
– CES za korpuse
– XCES 2000. (Ide, Veronis, 2000)
Obilježavanje korpusa: vrste

􀁺 nelingvističko obilježavanje
– strukturni dijelovi teksta/dokumenta
• nadnaslov, naslov, podnaslov, međunaslov
• autor(i)
• potpis, referencija, motto, zaziv, prolog, epilog, predgovor...
• odlomci
􀁺 lingvističko obilježavanje
– uzima u obzir jezične razine i jezične jedinice na tim razinama
– segmentacija: razdioba na jezične jedinice
• na rečenice
• na riječi (pojavnice)
– označavanje: dodjeljivanje lingvističkoga opisa jezičnim jedinicama
Obilježavanje korpusa: rečenice
􀁺 segmentacija na rečenice
– umetanje <S>...</S> oznaka
– algoritam za prepoznavanje granica rečenica
• pronaći granicu, umetnuti </S> <S>
• granica: [“|«|’]*(.|!|?)[“|«|’]* [“|»|`|’]*(A-Ž) ubacivanje </S> <S>
• izbacivanje </S> <S> za znane iznimke: dr., mr., msgr., g., gđa., gđica., o., sv., itd.
􀁺 problem pravopisnih rješenja u pojedinim jezicima
– npr. njem. imenice; hrv: redni brojevi
– 28% brojeva s točkom su i redni i kraj rečenice
Obilježavanje korpusa: opojavničenje

􀁺 segmentacija na pojavnice tj. opojavničenje (tokenisation)
– ulaz: XML
• izlaz 1: tab-datoteka kao ulaz u bazu podataka (vertikalizirani korpus)
• izlaz 2: opojavničeni XML
Obilježavanje korpusa: opojavničenje

􀁺 izlaz 2: opojavničeni XML
Obilježavanje korpusa: označavanje

􀁺 označavanje vrsta riječi (POS tagging) = dodjeljivanje vrste riječi svakoj pojavnici
– razlikovanje žene (imenica od glagola)
– u konkordanciji umjesto 150 primjera žene kao N prolazite samo kroz 20 gdje je V
– skupovi oznaka (tagsets)
• EAGLES: MulText preporuka za sve EU jezike
• MulTextEast (1994-1996): preporuka za CEE jezike (hr 1998)
– osim POS i MSD označavanje
– http://nl.ijs.si/ME
– ručno <> strojno
Obilježavanje korpusa: lematizacija

􀁺 Lematizacija
– postupak dodjeljivanja svakoj pojavnici polaznog, natukničkog oblika = leme
Obilježavanje korpusa: označavanje 3

􀁺 morfosintaktičko označavanje (MSD tagging)
= dodjeljivanja vrijednosti morfosintaktičkih kategorija svakoj pojavnici
– MSD = morphosyntactic description
– dodavanje ostalih gramatičkih kategorija osim vrste riječi
– razlikovanje žene (Gjd, Nmn, Amn, Vmn)
– skupovi oznaka (MSD tagsets)
Obilježavanje korpusa: homografija

􀁺 sraz na unigramskoj razini
􀁺 dobivanje “homografske težine” svake pojavnice i različnice
􀁺 homografija izrazito visoka
Obilježavanje korpusa: homografija 2

􀁺 dvije vrste homografije
– unutarnja
– vanjska
􀁺 “unutarnja” homografija (unutar iste vrste riječi)
– pojavnica može predstavljati različite oblike (tj. MSD interpretacije) iste leme
– izrazito prisutna u slavenskim jezicima (sinkretizam padeža itd.)
– npr. u hrvatskih imenica dativ, lokativ i instrumental množine
Oblik lema MSD
gledateljima gledatelj Ncmpd
gledateljima gledatelj Ncmpl
gledateljima gledatelj Ncmpi
– osobito prisutna u hrvatskih pridjeva
• 227 pravilnih oblika s različitim MSD-ima
• 37 različnica
• odnos = 1 različnica : 6,14 oblika (tj. različitih MSD-a)
Obilježavanje korpusa: homografija 3

􀁺 “vanjska” homografija (između različitih vrsta riječi)
– pojavnica može predstavljati različite oblike (tj. MSD interpretacije) dvije ili više lema
– izrazito prisutna u flektivno siromašnim jezicima (eng, fra...)
– hrvatski primjer:
cijenjene cijeniti Vmps-pfp
cijenjene cijenjen Afpfpan
cijenjene cijenjen Afpfpay
cijenjene cijenjen Afpfpnn
cijenjene cijenjen Afpfpny
cijenjene cijenjen Afpfpvy
cijenjene cijenjen Afpfsgn
cijenjene cijenjen Afpfsgy
cijenjene cijenjen Afpfsgy
cijenjene cijenjen Afpmpay
– za hrvatski nismo imali nikakve statistike o “homografskoj opterećenosti”
Obilježavanje korpusa: označavanje 4

􀁺 označivači (taggers)
– temeljeni na pravilima (rule-base) <> probabilistički (statistički)
– učeći <> rigidni
– točnost (prvi oko 77%, današnji oko 97%) = ovisna o
• skupu oznaka
• jeziku
– sustavi:
• Greene & Rubin 1971 (TAGGIT) 77%
• Lancaster (CLAWS) 95%
• Eric Brill 97% WinBrill
• Torsten Brants (TnT) 97%
Obilježavanje korpusa: sintaksa

􀁺 prepoznavanje rečenične strukture
– subjekt, predikat, objekt…
Obilježavanje korpusa: sintaksa 2

􀁺 Parsanje (parsing)
– parser = program koji analizira sintaktičku strukturu rečenica
– tipovi parsera
• plitki (shallow)
• duboki (deep, full)
• robustni (robust)
􀁺 sintaktički označeni korpusi = banke stabala (treebanks)

􀁺 parseri
– lijevogranajući (left-branching)
– desnogranajući (right-branching)

􀁺 problemi sintaktičke višeznačnosti

􀁺 generativne gramatike (generative grammars)
􀁺 gramatike ovisnosti (dependency grammars)
Obilježavanje korpusa: semantika
􀁺 2 osnove vrste
– rečenična semantika = obilježavanje semantičkih odnosa između dijelova rečenice/teksta
• agens, pacijens itd. (v. predikatni račun: baciti(dječak, lopta))
• FrameNet (Ch. Fillmore)
– leksička semantika = obilježavanje semantičkih osobina samih riječi
• obilježavanje smisla riječi
• WordNet (Miller 1990): Princeton
Obilježavanje korpusa: ostale vrste

􀁺 Diskursno obilježavanje
– anafora
􀁺 Fonetska transkripcija
􀁺 Prozodija
Statističke metode 1
􀁺 polazi se od brojanja = frekvencija
– fonemska/grafemska razina
– razina riječi
• pojavnica
• različnica
• lema
• kombinacije riječi
– sintaktička razina
• sintagmatske strukture
– dijelovi rečenica: NP, VP, PP itd.
– vrste odnosa ovisnosti (atribucija, prijedložnost itd.)
• rečenične strukture (tipologija S-ova)
– semantička razina
• semovi (komponencijalna analiza)
• značenja cijelih riječi
– npr. broj sinonima, antonima itd.
􀁺 frekvencija
– apsolutna = apsolutni iznosi u nekom korpusu
– relativna = u omjerima tj. frekvencija u normaliziranim veličinama (normalizacija =
svođenje korpusa na zajedničku mjeru)
– iskazivanje omjera relativna frq = apsolutna frq / ukupna veličina korpusa
– % (p.c.), ‰ (p.m.), 1M (p.p.m.)
􀁺 frekvencije: pojedinačne <> kombinacije jezičnih jedinica
􀁺 pronalaženje statistički relevantnih kombinacija izračunom statističkih mjera
􀁺 kolokacije: statistički značajno supojavljivanje dvije ili više jezičnih jedinica u korpusu
􀁺 kontingencijske tablice = način modeliranja kolokacija
krava ¬ krava
muzara 59 6
¬ muzara 8 570934
– broj rečenica u kojima se pojavljuju krava i muzara u korpusu
– χ2 test = 456400 ⇒ par krava/muzara = dobar kandidat za kolokaciju
􀁺 uzajamna obavijesnost (mutual information)
– govori o očekivanosti pojavljivanja druge riječi nakon prve
– P = vjerojatnost pojavljivanja (= relativna frekvencija u korpusu)

– lošiji rezultati s niskofrekventnim pojavama
􀁺 Dice koeficijent
– govori o očekivanosti supojavljivanja obiju riječi zajedno
– znatno bolji rezultati i s niskofrekventnim pojavama
􀁺 t-score
– daje mjeru različitosti
– primjena kad su već pronađeni različiti kandidati za kolokacije
– primjena s ciljem razlikovanja različitih kombinacija
– primjer za izračunavanje kolokacija powerful support i strong support
– σ = standardna devijacija
– strong support je za 13 standardnih devijacija vjerojatniji od powerful support
􀁺 z-score
– sličan t-score
􀁺 pronalaženje prijevodnih ekvivalenata
􀁺 također kontingencijske tablice
cow ¬ cow
vache 59 6
¬ vache 8 570934
– broj rečenica u kojima se pojavljuju cow i vache u eng-fra paralelnom korpusu
– χ2 = 456400 ⇒ par cow/vache = dobar kandidat za prijevodni ekvivalent
􀁺 klasične statističke tehnike
– multivarijantna analiza
– faktorska analiza
– interkorelacijska matrica
– cluster analiza
􀁺 probabilistički jezični modeli = temeljeni na statističkom pristupu
– skriveni Markovljevi lanci (Hidden Markov Models)
– n-grami

Korpusna Skripta

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Korpusna Skripta

Uploaded by

Copyright:

Available Formats

Korpusna – skripta

Uvod 1: računalna lingvistika

Uvod 2: strojna obradba jezika

Uvod 4: korpusna lin. i računalna lin.

Uvod 5: korpusna lin. i leksikografija

Povijest korpusne lingvistike 1

“Rana” korpusna lingvistika 1

“Rana” korpusna lingvistika 2

“Rana” korpusna lingvistika 3

Prekid od 30 godina 4: argumenti NCh

Prekid od 30 godina 5: dodatni args

Prekid od 30 godina 6: korpusni args

Prekid od 30 godina 7: korpusni args

Prekid od 30 godina 8: korpusni args

Prekid od 30 godina 10: sažetak

Korpus: metodološki konstrukt

Zbirka tekstova / korpus 1

Zbirka tekstova / korpus 2

Zbirka tekstova / korpus 3

Rezultati pretrage korpusa 1

Rezultati pretrage korpusa 1

Rezultati pretrage korpusa 2

Obilježavanje korpusa: formati

Obilježavanje korpusa: formati 2

Obilježavanje korpusa: dokument

Obilježavanje korpusa: DTD

Obilježavanje korpusa: standardi

Obilježavanje korpusa: vrste

Obilježavanje korpusa: opojavničenje

Obilježavanje korpusa: opojavničenje

Obilježavanje korpusa: označavanje

Obilježavanje korpusa: lematizacija

Obilježavanje korpusa: označavanje 3

Obilježavanje korpusa: homografija

Obilježavanje korpusa: homografija 2

Obilježavanje korpusa: homografija 3

Obilježavanje korpusa: označavanje 4

Obilježavanje korpusa: sintaksa

Obilježavanje korpusa: sintaksa 2

Obilježavanje korpusa: sintaksa 3

Obilježavanje korpusa: sintaksa 4

Obilježavanje korpusa: sintaksa 5

Obilježavanje korpusa: ostale vrste

– P = vjerojatnost pojavljivanja (= relativna frekvencija u korpusu)

– znatno bolji rezultati i s niskofrekventnim pojavama

You might also like