Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 12

Strojno obiljeavanje hrvatskih tekstova

stanje i perspektive
Uvod
Ovaj je rad motiviran injenicom da na hrvatskom ne postoji ni jedan cjeloviti pregled
radova iz ovog podruja. Premda definirani standardi za suvremeno obiljeavanje tekstova na
hrvatskom jeziku postoje od 1!. godine"
1
njihova primjena jo# nije zaivjela. $ilj je ovoga
rada odrediti stanje i budu%e korake pri strojnom obiljeavanju tekstova na hrvatskom jeziku.
&putit %e se na radove koji ve% postoje" a naglasiti oni segmenti koji za hrvatski jezik jo# ne
postoje" ili se tek stvaraju.
'a samom poetku valja osvijetliti neka pitanja strojnog obiljeavanja tekstova.
Potpuna tonost obiljeavanja pri strojnoj obradi tekstova danas jo# nije postignuta stoga #to
ni jedan raunalnolingvistiki alat ne radi s potpunom tono#%u. Ona je mogu%a samo ako
nakon ili za vrijeme obrade slijedi ljudska intervencija u tekst ili ispravljanje pogre#aka.
(rugo je pitanje za#to se u naslovu govori o tekstovima" a ne korpusima) *oglo bi se re%i da
su dana#nji korpusi +tre%e generacije, velike baze tekstovnih podataka" pa ih je preciznije
nazivati tekstovnim arhivima.
Strojno obiljeavanje tekstova nekoga jezika iznimno je sloen zadatak- bilo sa
stajali#ta opsega posla kojeg treba obaviti" interdisciplinarnosti koje ono zahtijeva +lingvistika"
informatika i statistika, ili koliine znanja.ljudi koji se strojnom obradom bave. 'o s jedni te
istim problemom suoeni su svi jezici- to je mali broj istraivaa koji se ovim podrujem bave
u uglavnom nezavisnim skupinama" naje#%e od / do 0/ istraivaa.
1
2o je ujedno i odgovor
za#to dugo vremena nije postojao zadovoljavaju%i alat ili integrirana skupina alata koja bi
olak#ala ili ubrzala ovakve obrade ne samo za jedan nego i za vi#e jezika. & posljednje dvije3
tri godine razvijeno je nekoliko alata koji u osnovi zadovoljavaju potrebe strojne obrade
teksta. 4526
0
je danas naj#ire prihva%en sustav u koji je mogu%e ugra7ivati interaktivne
module za jezinu obradu. 'o za obradu hrvatskoga potrebno je razviti itav niz modula
8
tj.
alata specifinih za hrvatski jezik koji bi bili ugra7eni u 4526. 2aj proces" naalost" zahtijeva
1
6rjavec +ur., +
1
1991," standard na razini POS i *S( obiljeavanja
1
$unningham +1999,-1:
0
$unningham +1991,
8
O modulima v. idu%a poglavlja
suradnju ve%eg broja jezikoslovaca i informatiara nego #to ih se za hrvatski ovim podrujem
bave.
(anas se strojnom obradom hrvatskoga jezika bavi znatno manje od 0/ istraivaa" a
da situacija bude jo# nezavidnija" oni su institucionalno odijeljeni u dvije manje3vi#e
nezavisne skupine.
;rvatski jezik u ovom podruju naalost zaostaje za mnogim europskim jezicima kao
npr. za e#kim" slovenskim" bugarskim" madarskim" a kad je rije o mnogoljudnijim jezicima
+engleski" njemaki" #panjolski, zaostatak je jo# ve%i. 2aj je zaostatak mogu%e pretvoriti u
prednost jer danas postoje vr#%i standardi" razvijeniji alati i metodologije za obrade teksta" te
stoga moemo zaobi%i probleme koje su inili drugi.
1. Obiljeavanje tekstova
Obiljeavanje +annotation, mark-up, je pridodavanje dodatnih eksplicitnih
informacija tekstu za raunalnu obradu tamo gdje su one implicitno prisutne osobi koja ita
tekst.
/
Pri obiljeavanju korpusa oznake se odabiru iz odre7enoga skupa oznaka i ubacuju u
elektroniki zapis teksta u smislu obiljeavanja strukture i drugih osobitosti teksta za koje
postoji potreba za obiljeavanjem.
:
<edoslijed kojim se obavlja obiljeavanje tekstova moe biti od iznimne vanosti za
uspje#nost obiljeavanja. 'aje#%e se rezultati prethodnih koraka obrade koriste u idu%im
koracima obrade" pa preciznost obrade izravno ovisi o preciznosti rezultata obrade iz
prethodne faze. 2o je glavni razlog zbog kojega je nuna suradnja me7u istraivaima koji
rade na obradi nekoga jezika. (akle" izbjegavanje ponavljanja na vi#e razliitih mjesta istoga
mukotrpnog posla trebao bi biti imperativ za maloljudni jezik poput hrvatskoga.
Obiljeavanje danas nema smisla raditi runo. Stoga su oznake koje se ume%u u tekstove
rezultat uzastopne primjene razliitih raunalnojezikoslovnih alata. 2aj bi redoslijed shematski
mogao izgledati ovako-
Tokenizacija (opojavnienje)
/
=a>rer ? (r@ +1!,-19A
:
Bi#e u Cubrini% +1/,-1: i Dekavac +1991,-1!
segmentacija na reenice
lematizacija
POS i MSD oznaavanje
PN (NE!)
chunking
plitki +shallo>, parsing
dubinski +deep, parsing
Potrebno je napomenuti da iako est" ovaj redoslijed nije striktan. 'a primjer" pri
obradi hrvatskih tekstova lematizacija i POS i *S( oznaavanje obavljaju se u istom koraku.
Opseg ovoga rada obuhva%a faze do P'3a
A
ukljuuju%i i nju. (va su razloga za to- ovaj bi
tekst pre#ao granice lanka u asopisu" a jo# je vaniji usredotoenje na aktualne i
srednjorono rje#ive probleme. 'e bi imalo velikog smisla baviti se fazama koje su za
hrvatski u kontekstu strojne obrade jo# predaleko od izvodivih.
Ez izloene sheme vano je uvidjeti da bi ukoliko ne alati" onda barem obiljeeni
tekstovi nad kojima se izvodi obrada morali imati svojstvo vi"estr#ke #porabivosti
+reusability,.
!
2o na alost nije bila ustaljena praksa kod nas do sada. 'eprimjenjivanje ovoga
naela pridonijelo bi dodatnom zaostajanju hrvatskog jezika u ovom podruju. Ez tog razloga
zadnje poglavlje ovog lanaka upu%uje na predloene standarde za obiljeavanje tekstova.
2. Jezikoslovni alati - radovi
2.1 Tokenizacija
Tokenizacij# +tokenisation, ili opojavnienje moglo bi se definirati kao dovo7enje
korpusa u stanje u kojem su sve rijei3pojavnice identificirane i eksplicitno obiljeene" gdje se
razlikuju F*=.S4*= oznake interpunkcije i znamenaka od rijei3pojavnica.

&
jednostavnom pristupu pojavnice je lako identificirati jer pojavnica je sve ono #to se nalazi
izme7u dva pismena za obiljeavanje razmaka" #to naje#%e odgovara dvjema bjelinama.
*e7utim" tokenizacija je u sloenijem sluaju mnogo zahtjevnija" jer se pojavnicama mogu
smatrati i jedinice koje se sastoje od vi#e rijei +multi-word units (MWU)," a su sintaktiki ili
A
P' stoji za prepoznavanje naziva. Bi#e u poglavlju 1./
!
Bi#e u Ede ? Dre> +1999, i Dekavac +1991,-:/

Dekavac +1991,-11
semantiki povezane. 'a primjer" datum 20. svibanj ili 20. 5. mogao bi biti obra7ivan kao
jedna jedinica" pa ga u ranijem smislu odre7enja pojavnice nije mogu%e tokenizirati.
19
&
ovakvom pristupu tokenizacija bi ukljuivala prepoznavanje naziva +named entity
reo!nition,. Prepoznavanje naziva ukljuuje obradu teksta pri kojoj se identificiraju izrazi
koji su nazivi za npr. ljude" organizacije" datume i sl.
Ga jednostavni pristup u ovom trenutku ve% postoji gotovo rje#enje tj. alat 1F*=.
11
Osim
tokenizacije ovaj se alat pokazao uinkovit i kod pretvaranja +onversion, ;2*= i <2H
datoteka u F*= format.
2.2 Segmentacija na reenice
Segmentacija se reenica +sentene se!mentation, sentene boundary disambi!uation)
obavlja ubacivanjem jedinstvenih nizova pismena" tj. graninih oznaka na poetak" odnosno
na zavr#etak reenica u tekstu +u suvremenim shemama za obiljeavanje teksta to su nizovi
ISJ i I.SJ,. Eako izgleda trivijalno" to naje#%e ukljuuje sloene postupke iz razloga #to su
oznake reenine interpunkcije esto vi#eznane +ambi!uous,. 'a primjer" toka moe stajati
uz redni broj" kraticu" kraj reenice" ili pak kraticu ili redni broj na kraju reenice. Ga hrvatski
je jezik testni model alata za segmentaciju reenice na tekstu veliine 1999 reenica imao
deklariranu tonost od "/ K.
11
Postie li ovaj model i na ostalim tekstovima slinu tonost"
u potpunosti bi mogao zadovoljavati suvremene zahtjeve.
2.3 Lematizacija
$ematizacija +lemmatisation, je svo7enje pojavnica iz korpusa na njihove natuknike oblike"
tj. svo7enje razliitih pojavnica +lanova iste paradigme, na zajedniku lemu.
10
'a primjer"
pojavnice stol" stolova ili stolu bile bi svedene na lemu stol. $ema je onaj oblik pod kojim
bismo traili neku rije u rjeniku. =ematizacija se na isti nain primjenjuje i na flektivno
LnepravilneL oblike pa se npr. jesam" bija" ili bila svode na leksem biti. =ema predstavlja sve
oblike odre7ene rijei. Mako se u postupku strojnoga prepoznavanje lema redovito moraju
prepoznati i morfosintaktiki opisi pojavnica" lematizacija se zapravo obavlja u drugoj fazi
19
4rover ? *atheson ? *ikheev +1999,
11
Bi#e u 2adi% +1999b,-/18" 2adi% +1991,-119" 2adi% +1991,-88/
11
Doras +1!,-1//
10
*c6ner@ ? Nilson +1:,-81
POS
18
oznaavanja. Epak" lematizacija je nuna kao zaseban postupak jer se pri *S(
obiljeavanju u pravilu odre7uje gramatiki oblik pojavnice" a ne sama lema.
1/
=ematizacija je
vaan postupak u istraivanjima korpusa osobito za jezike koji imaju bogatu morfologiju. 5lat
koji obavlja automatsku lematizaciju zove se lematizator +lemmati#er,. 'ajve%u prepreku
postizanju ve%e tonosti automatske lematizacije predstavljaju istopisnice +homografi,. Oedini
ve%i korpus hrvatskoga jezika nad kojim je obavljen dio lematizacije +poluautomatskim
putem, Mo!u$ev je korpus.
1:
'a osnovi tog korpusa izra7en je %rvatski &estotni rje&nik.
1A
Ga hrvatski jezik postoji program za lematizaciju koji je dio sustava SO=5;" a
deklarirana tonost mu je / K.
1!
O radovima na strojno potpomognutoj lematizaciji vi#e u
2adi% +1A-01,.
2.4 POS i MSD oznaavanje
Part-of-speech (POS) oznaavanje je pridruivanje gramatike kategorije svakoj
pojavnici u tekstu +ponekad se naziva gramatiko oznaavanje ili morfosintaktiko
obiljeavanje,.
1
POS oznaavanje spada u osnovne vrste lingvistikog oznaavanja. Pored
toga" POS oznake prvi su korak u razrje#avanju istopisnica" tj. pojavnica koje imaju isti lik a
razliite gramatike kategorije i.ili znaenje. 5lat s pomo%u kojega se obavlja automatsko
POS oznaavanje naziva se POS oznaiva +ta!!er,.
<ezultat automatskoga POS oznaavanja moe biti iznimno precizan. <azlog za to je
predvidivost gramatikih kategorija pojavnica na osnovi ko3teksta u kojima se nalaze. POS
oznaivai smatraju se najpouzdanijim i najkorisnijim raunalnolingvistikim alatom" a prema
nainu rada dijele se na-
19
1. vjerojatnosne +probabilisi, oznaivae- zasnivaju se na vjerojatnosnom
raunu i statistici"
1. oznaivae zasnovane na pravilima +rule-based,- zasnivaju se na lingvistikim"
runo pisanim pravilima.
18
o POS i *S( oznaavanju v. poglavlje 1.8
1/
Ede +1:,
1:
'ednomilijunski korpus "rvatsko! knji(evno! je#ika poznatiji je pod nazivom Mo!u$ev korpus
1A
*ogu#" Dratani%" 2adi% +1,-/
1!
Cubrini% +1/,-:
1
*c6ner@ ? Nilson +1:,-0:
19
Ban 4uilder +1/,
Be%ina POS oznaivaa danas koristi prvi pristup" a naje#%i se koristi u kombinaciji s
drugim pristupom. 2onost rezultata pove%ava se primjenom pravila na rezultat
vjerojatnosnog oznaivaa.
Oedna od podjela POS oznaivaa zasniva se i na stupnju autonomije oznaavanja u
odnosu na uporabu prethodno obiljeena korpusa u uvjebavanju oznaivaa na-
11
1. nadgledane +supervised,- rabe prethodno obiljeene korpuse kao osnovu za
izradu alata koji %e se koristiti u postupku POS oznaivanja" npr. leksikon"
estote pojavnica i oznaka" vjerojatnosti odre7enih nizova oznaka itd.
1. nenadgledane +unsupervised,- umjesto prethodno obiljeenih korpusa koriste
napredne raunalne metode kako bi prona#li automatska grupiranja prema
kojima se izraunavaju vjerojatnosti potrebne vjerojatnosnom oznaivau" ili
pak pronalaze pravila za oznaivae zasnovane na pravilima.
Oznaiva za ulaznu varijablu uzima pojavnice iz korpusa" te ih uspore7uje s rijeima
iz leksikona.
11
$eksikon +ili elektroniki rjenik, u korpusnoj se lingvistici koristi kao
sinonim za rjeniku bazu podataka #to podrazumijeva pohranu leksike gra7e u strojno3
itljivu obliku. =eksikon potencijalno moe sadrati #irok raspon informacija o pojedinoj
rijei" ovisno o strukturi i vrsti zadatka obrade kojoj je namijenjen. Osnovni leksikon moe
sadrati i informacije o morfologiji" bilo kao popis svih oblika rijei" bilo u obliku koji
omogu%uje generiranje svih oblika rijei" ili sadri oboje od navedenoga.
Eako su se ranije sastavljali runo" POS obiljeeni korpusi nezamjenjiv su izvor za
automatsko sastavljanje pouzdanih i sveobuhvatnih leksikona. Gapravo" taj postupak moe
biti obostran- sastavljanje leksikona iz POS obiljeenoga korpusa" ili POS obiljeavanje
korpusa iz leksikona. Pto je ve%i obiljeeni korpus" ve%a je mogu%nost sastavljanja bogatijega
leksikona. Brijedi i obratno" #to je ve%i leksikon" ve%a je i mogu%nost pronalaenja
pripadaju%eg POS3a pojavnice iz korpusa. 5utomatski sastavljeni leksikoni na osnovi POS
obiljeenih korpusa potencijalno sadre stotine tisu%a natuknica iz razloga #to je broj oblika
svih rijei u prirodnom jeziku moe biti velik" osobito u flektivnih jezika kakav je hrvatski.
Edealan bi leksikon trebao sadrati sve ovjerene oblike rijei i njima pridruene POS i *S(
podatke.
POS oznaavanje moe ukljuiti dvije razine-
1. razina- ukljuuje prepoznavanje i oznaavanje vrsta rije&i +)*+,"
1. razina- oznaava se vrsta rije&i i odre7uju !ramati&ke kate!orije" tj. njihove vrijednosti.
11
Ban 4uilder +1/,
11
*c6ner@ ? Nilson +1:,-119
(ruga se razina oznaavanja pojavnica naziva i mor%osinataktiki opis +morp"osyntati
desription, M+,,. Pri svakoj se razini rabe razliiti skupovi oznaka" gdje je skup oznaka na
drugoj razini znatno ve%i jer je varijabilnost kategorija i njihovih vrijednosti ve%a.
Ovaj tip oznaavanja teksta predstavlja jedan od najvanijih problema pri
obiljeavanju hrvatskih tekstova. Oedini cjeloviti rad koji je rezultirao izradom oznaivaa
SO=5; magistarski je rad 2omislave Cubrini%. (eklarirana tonost vjerojatnosnog
oznaivaa sustava SO=5; izraunata na uzorku
10
bez +za oznaiva, nepoznatih rijei iznosi
1 K.
18

S obzirom da hrvatski ima bogatu fleksiju" te stoga i velik broj potencijalnih oznaka"
za oekivati je i manju preciznost oznaivaa.
1/
Stoga bi bilo poeljno sauvati potencijalne
interpretacije pojedinih pojavnica iz leksikona. 'a primjer" sauvane kao atribute elemenata-
<s><w lemma="ekonomija" aa="Ncfpg;Ncfsn" ta="Ncfsn">Ekonomija</w><w
lemma="biti" aa=" Vcip3s" ta="Vcip3s ">je</w><w lemma ="lo"
aa="Afpfsnn;Afpfsny;Afpfsvy;Afpmsan
y;Afpmsgn;Afpnpan;Afpnpay;Afpnpnn;Afpnpny;Afpnpvy;Afpnsgn" ta="Afpfsnn">
loa</w><pt>.</pt></s>
gdje su" aa all anal@ses +sve mogu%e interpretacije," ta 3 true anal@ses +interpretacija
oznaivaa" ne nuno tona,"
1:
ili po $6S standardu
1A
kao elemente-
<! type=""">
<#"$%>detaljima</#"$%>
<&'(>
<)A*'>+etalj</)A*'>
<,*->Ncmp+</,*->
<,*->Ncmpl</,*->
<,*->Ncmpi</,*->
<,*->Ncmpi</,*->
</&'(>
</!>
gdje su" O<2; pojavnice" D5S6 leme" *S( msd interpretacije iz leksikona.
1!
Eznimno koristan izvor informacija o usporednoj preciznosti nekoliko oznaivaa
primijenjenih na srodni +slovenski, jezik nalazi se u (eroski" 6rjavec" Gavrel +1999,.
10
'a manjem korpusu srednjo#kolskih udbenika
18
Cubrini% +1/,-:
1/
B. 6rjavec +1,
1:
Simov i ost. +u tisku,
1A
Bi#e o $6S3u u zadnjem poglavlju
1!
2adi% +1991,-88/
$jelovitu specifikaciju *S( skupa oznaka +ta!set, za hrvatski jezik po *&=26F23
6ast +B.1, standardu sastavio je 1!. 2adi%.
1

2.5 PN (N!"
Prepoznavanje naziva" P'" +-amed .ntity /eo!nition, -./, ukljuuje obradu teksta
pri kojoj se identificiraju izrazi koji predstavljaju nazive za osobe" organizacije" lokalitete" kao
i datumi ili valute. Pored P' esto se obavlja i prepoznavanje i klasifikacija naziva" PM'
+-amed .ntity /eo!nition and 0lassi1iation, -./0,. Prepoznavanje naziva vano je za
nekoliko razina strojne obrade kao #to su- sloenija tokenizacija" od iznimne je koristi pri
segmentaciji na reenice i na posljetku parsing. Oo# nema cjelovitih radova
09
iz ovoga
podruja za hrvatski jezik" postoji najava jednog doktorata.
3. Jezini resursi
Oezini resursi polazi#te su svake strojne obrade teksta. O njihovoj veliini"
reprezentativnosti i kodiranju zasigurno ovisi kvaliteta obrade.
Morpus koji tei da bude reprezentativan" a kvantitativno zadovoljava zahtjeve
suvremene jezine obrade je ;'M"
01
a sastavlja se u Gavodu za lingvistiku Hilozofskog
fakulteta Sveuili#ta u Gagrebu.
01
S obzirom na optere%enost autorskim pravima" nije ga
mogu%e koristiti za Qzajedniku obraduR tekstova" u smislu jezinog resursa koji bi se
obradama nadopunjavao iz vi#e centara. Ez tog je razloga potrebno sastaviti korpus koji %e
predstavljati etalon +2olden standard, i postati slobodan resurs za zajedniku uporabu svih
ukljuenih u strojnu obradu hrvatskoga.
00
1
6rjavec +ur., +
1
1991," v. NNN adresu- http-..nl.ijs.si.*6.B1.msd.html.node1/.html 3
S6$2EO'90!99999999999999999
09
Oedini meni poznat rad koji se dotie ovog podruja je 2adi% +1999c,
01
;'M je slobodno pretraiv i nalazi se na NNN adresi- http-..>>>.hnk.ffzg.hr
01
2adi% +1A," 2adi% +1!," 2adi% +1999a,
00
<adi se o tekstovima koji bi bili dostupni svim zainteresiranim za obradu" a nakon obrade obiljeeni ponovo
pohranjeni na dostupno mjesto.
& istom je Gavodu u zavr#noj fazi izrada morfolo#kog leksikona
08
prema *&=26F23
6ast specifikaciji.
0/
Od slinih leksikona postoji i rjenika baza
0:
sastavljena na Odsjeku za
Enformacijske znanosti Hilozofskog fakulteta Sveuili#ta u Gagrebu.
Baan jezini resurs su i popisi imena +!a##eteers,. Prvi" i #to je jo# vanije iscrpan
popis imena i prezimena s generiranim oblicima napravio je Doras sa suradnicima.
0A
4. Standardi za kodiranje tekstova
Ezbor standarda gotovo je od presudne vanosti za vi#estruku uporabivost jezinih
resursa. Standardni jezik za obiljeavanje tekstova.korpusa danas je F*=
0!
i gotovo da ga se
vi#e ne dovodi u pitanje.
0
*e7utim nain" tj. shema obiljeavanje jo# nije u potpunosti
usugla#ena" no ve%ina tekstova ravna se prema 26E3u
89
ili $6S3u.
81
26E standard u potpunosti
je uskla7en s F*= standardom od inaice P8.
81
5. Zakljuak
Belika prepreka razvoju strojne obrade hrvatskoga danas je nedostatak vi#estruko
uporabivog i dostupnog elektronikog morfolo#kog leksikona. =eksikon je osnovni jezini
resurs za obiljeavanje tekstova. Dez njega je nemogu%e obavljati oznaavanje na mnogim
razinama tekstova" kao i razvoj raunalnojezikoslovnih alata. Oednaki problem koji proizlazi
iz nepostojanja dostupnog leksikona je i nedostupan POS oznaiva za hrvatski jezik.
Preduvjet razvoja POS oznaivaa je i pribavljanje velike koliine morfosintaktiki
obiljeene jezine gra7e. 2i se prioritetni zadaci trenutno obavljaju u odvojenim i do sad
uglavnom nepovezanim skupinama
80
na Hilozofskom fakultetu Sveuili#ta u Gagrebu" #to
08
sastavlja se po naelima iznesenim u 2adi% +18,
0/
vi#e o *&=26F236ast specifikaciji u 6rjavec +1!,-1!
0:
Mrak +1!/,
0A
Doras i ost. +u tisku,
0!
F*= +1999,
0
v. Ede ? <omar@ +1999," Ede +1999," Dekavac +1991,-0!
89
26E +1991,S v. i Dekavac +1991,-/8
81
Ede +1!,S v. i Dekavac +1991,-/! i http-..>>>.Tml3ces.org
81
26E P8 dokument nalazi se na NNN adresi- http-..>>>.tei3c.org.26E.P8F. v. i P/
80
Gavod za lingvistiku i Odsjek za Enformacijske znanosti
rezultira neadekvatnom brzinom razvoja osnovnih jezinih resursa i alata za hrvatski jezik.
Povezivanje i uskla7ivanje rada ovih skupina zasigurno bi ubrzalo razvoj" ali i podiglo
kvalitetu i vi#estruku uporabivost jezinih resursa.
Ga navedene korake razvoja jezinih resursa i alata danas" za njihovo me7usobno
uskla7ivanje i uskla7ivanje prema ostalim jezicima" neophodno je po#tivanje me7unarodnih
standarda tekstova.
5bstract
2he article discusses the development of automatic annotation of $roatian e3teTts achieved b@
no>. Previous >ork in the field of language resources and tools for '=P of $roatian language
is discussed and further steps proposed. 2opics discussed in the paper are tokenisation"
sentence segmentation" lemmatisation" POS and *S( annotation" named entit@ recognition
and leTicon. Edeas and possible solutions for current problems are given in the conclusion.
Me@>ords- '=P" croatian language" annotation tools" language resoucers
Saetak
& lanku se daje cjelovit pregled radova iz podruja strojnog obiljeavanja hrvatskih tekstova.
Pregled obuhva%a opojavnienje" segmentaciju na reenice" lematizaciju" POS i *S(
oznaavanje" prepoznavanje naziva i problematiku leksikona. Osim izloenih gotovih radova
za svaku cjelinu posebno" upu%uje se na sline radove i dodatne izvore" te se daju ideje i
smjernice za budu%e korake. & zakljuku se istie nunost po#tivanja me7unarodnih standarda
za obiljeavanje tekstova u razvoju jezinih resursa i raunalnojezikoslovnih alata za hrvatski
jezik.
Mljune rijei- strojno obiljeavanje" hrvatski jezik" jezikoslovni alati" jezini resursi
$iterat#ra&
Dekavac" D. +1991," )rimjena ra&unalnoje#ikoslovni" alata na "rvatske korpuse" magistarski rad"
Hilozofski fakultet Sveuili#ta u Gagrebu
Doras" (. ? *ikeli%" '. ? =auc" (. +1990," 3eksi&ka 1lekivna ba#a podataka "rvatski" imena i
pre#imena" *odeli znanja i obrada prirodnog jezika Gbornik radova" <adovi Gavoda za
informacijske studije +knj. 11," 11310A
Doras" (. +1!," 4eorija i pravila se!mentaije teksta na "rvatskom je#iku" doktorska disertacija"
Hilozofski fakultet Sveuili#ta u Gagrebu
$unningham" ;. +1999," +o1tware 5r"iteture 1or 3an!ua!e .n!ineerin!" doktorska disertacija"
(eparttment of $omputer Science" &niversit@ of Sheffild
$unningham" ;. +1991," ,evelopin! 3an!ua!e )roessin! 0omponents wit" 254." +a &ser 4uide,"
&niversit@ of Sheffield" 4526 se nalazi na NNN adresi- http-..gate.ac.uk.
(eroski" S. ? 6rjavec 2. ? Gavrel O. +1999," Morp"osyntati 4a!!in! o1 +lovene6 .valuatin! )o+
4a!!ers and 4a!sets" Second Enternational $onference on =anguage <esources and 6valuation"
=<6$U99" 6=<5" 1931198.
6rjavec" 2. +1!," 4"e MU34.74-.ast +lovene 3e8ion" Proceedings of the Ath 6lectrotechnical
$onference 6<M U!" Portoro" Slovenija" Bol. D" str. 1!311.
6rjavec" 2. +1," 4a!!in! +lavi 0orpora" pozvano predavanje na Sveuili#tu u 2Vbingenu 1/.
prosinca 1" prezentacija predavanja se nalazi na NNN3adresi- http-..nl.ijs.si.et.talks.SHD881.tue3
slides.
6rjavec" 2. +ur., +
1
1991," +pei1iations and -otation 1or MU34.74-.ast 3e8ion .nodin! 9.2"
*ulteTt36ast . $oncede edition" specifikacija se nalazi na NNN adresi-
http-..nl.ijs.si.*6.B1.msd.html.msd.html
4rover" $." *atheson" $." *ikheev" 5." *oens" *. +1999," 34 444 - 5 :le8ible 4okenisation 4ool"
Proceedings of the Second =anguage <esources and 6valuation $onference" 5thens" 4reece
Ede" '. ? Dre>" $. +1999," /e;uirement, 4ools and 5r"itetures 1or 5nnotated 0orpora, u (ata
5rchitectures and Soft>are Support for =arge $orpora" =<6$1999 Norkshop Proceedings" 6=<5"
Paris35thens" 13/.
Ede" '. ? <omar@" =. +1999," 7M3 +upport 1or 5nnotated 3an!ua!e /esoures" Proceedings of the
Norkshop" Neb3based =anguage (ocumentation and (escription" Philadelphia" 18!31/0.
Ede" '. +1!," 0orpus .nodin! +tandard6 +2M3 !uidelines 1or enodin! lin!uisti orpora"
Hproceedings of the first Enternational $onference on =anguage <esources and 6valuation" =<6$U!"
4ranada. 6=<5" 8:038A9" http-..>>>.cs.vassar.edu.$6S..
Ede" '. +1999,. 4"e 7M3 :ramework and <ts <mpliations 1or 0orpus 5ess and Use" Proceedings of
(ata 5rchitectures and Soft>are Support for =arge $orpora" Paris- 6uropean =anguage <esources
5ssociation" 1!301.
Ede" 'anc@ $6S +1:," 0orpus .nodin! +tandard" NNN adresa- http-..>>>.cs.vassar.edu.$6S.
Mrak" *. ? Doras" (. +1!/," 3e8ial ,ata =ase o1 t"e 0roatian 3iterary 3an!ua!e" Enformatologica
Wugoslavica 1A +038," 1103181.
=a>rer" *. O. ? (r@" ;. 5. +1!," Usin! 0omputers in 3in!uistis" <outledge" 'e> Work
*c6ner@" 2. ? Nilson" 5. +1:," 0orpus 3in!uistis" 6dinburgh &niversit@ Press
*ogu#" *. ? Dratani%" *. ? 2adi%" *. +1," %rvatski &estotni rje&nik" Gavod za lingvistiku
Hilozofskog fakulteta i Pkolska knjiga" Gagreb
Simov" M. ? Mou@lekov" *. ? Simov" 5. +u tisku," 0asaded /e!ular 2rammars over 7M3
,ouments" u Proc. of the 1nd Norkshop on '=P and F*= +'=PF*=31991," 2aipei" 2ai>an" 1 rujna
1991.
2adi%" *. +18," /a&unalna obradba mor1olo!ije "rvatsko!a knji(evno!a je#ika" doktorska
disertacija" Sveuili#te u Gagrebu" Hilozofski fakultet
2adi%" *. +1A," /a&unalna obradba "rvatski" korpusa6 povijest, stanje i perspektive, Suvremena
lingvistika 80388" str. 0!A308.
2adi%" *. +1!," /aspon, opse! i sastav korpusa suvremeno!a "rvatsko!a je#ika" Hilologija 09301"
str. 00A308A. +ESS' 98830:0F,
2adi%" *. +1999a," Uporaba 7M3-a u "rvatskim korpusima" $roEnfo1999 &pravljanje
informacijama u gospodarstvu i znanosti" zbornik" (ubrovnik" 1:31!. listopada 1999" 'acionalna i
sveuili#na knjinica3Pliva" Gagreb 1999" str. 101310A.
2adi%" *. +1999b," =uildin! t"e 0roatian-.n!lis" )arallel 0orpus" =<6$1999 zbornik" 5tena" 01.
svibnja31. lipnja 1999" 6=<5" Pariz35tena 1999" Bol. E" str. /103/09.
2adi%" *. +1999c," <n1ormation /etrieval Meets %uman 3an!ua!e 4e"nolo!y" $&$1999 Gbornik"
$(3<O*" Gagreb" 1831:. rujna 1999" $5<'et" Gagreb
2adi%" *. +1991," )roedures in =uildin! t"e 0roatian-.n!lis" )arallel 0orpus" Enternational Oournal
of $orpus =inguistics" poseban broj" 19A3110.
2adi%" *. +1991," =uildin! t"e 0roatian -ational 0orpus" =<6$1991 zbornik" =as Palmas" 1A.
svibnja31. lipnja 1991" 6=<5" Pariz3=as Palmas 1991" Bol. EE" 881388:.
26E +1991," 4e8t .nodin! <nitiative" NNN adresa- http-..>>>.tei3c.org.
Ban 4uilder" =. +1/," 5utomated )art o1 +pee" 4a!!in!6 5 =rie1 *verview" preuzeto 1.
oujka 1991" sa NNN- http-..>>>.georgeto>n.edu.cball.ling0:1.taggingXovervie>.html
F*= +1999," .8tensible Markup 3an!ua!e (7M3) >.0" N0$ <eccomendation" NNN adresa-
http-..>>>.>0.org.2<.<6$3Tml
Cubrini%" 2. +1/," Mo!u?nosti strojno!a o#na&avanja i lemati#iranja korpusa tekstova "rvatsko!a
je#ika" magistarski rad" Hilozofski fakultet Sveuili#ta u Gagrebu

You might also like