Professional Documents
Culture Documents
Hrvatski Nacionalni Korpus: Ivana Simeon
Hrvatski Nacionalni Korpus: Ivana Simeon
Ivana Simeon
(ivana.simeon@ffzg.hr)
Korpusna lingvistika
Odlike korpusnog pristupa empirijska analiza temelj: opsene i ureene zbirke tekstova primjena raunala kvantitativne i kvalitativne tehnike
Prednosti raunala u lingvistikim istraivanjima: mogunost brze obrade velike koliine podataka dosljednost mogunost interakcije
Podruja primjene korpusnog pristupa: leksikologija/leksikografija, sociolingvistika, usvajanje jezika, poduka jezika, stilistika, forenzika lingvistika...
to je korpus?
korpusni je pristup obogatio lingvistika istraivanja: brzim, preciznim i sloenim analizama golemom koliinom informacija o jezinoj uporabi bogatim opisima korpusi omoguuju provoenje novih kao i proirenje opsega ranijih istraivanja ak i ako lingvist ne provodi korpusno istraivanje, poznavanje ovog pristupa ini ga informiranim konzumentom korpusnih studija
Posluitelj je dopunjen besplatnim klijentskim programom Bonito koji omoguava pristup i pretragu korpusa uz sljedee funkcije:
Daljnji razvitak
Javni katalog
ustanova projekata jezinih resursa (korpusi, e-tekstovi...) alata (konkordancije, MT...) aktivnosti (konferencije) povezanih s (hrvatskim) jezinim tehnologijama
http://hobs.ffzg.hr/
Cilj:
Izraditi sintaktiki oznaen korpus hrvatskoga jezika opsega barem 100.000 pojavnica
Metoda:
Oznaavanje e se provoditi na temelju ovisnosne analize u reenicama iz korpusa Model sintaktikoga opisa i oznaavanja preuzet je iz Prake ovisnosne banke stabala
http://hml.ffzg.hr/ Leksika baza s vie od 45.000 rijei opega jezika, 15.000 osobnih mukih i enskih imena, 50.000 prezimena registriranih u Republici Hrvatskoj Na temelju toga resursa proizvedeno je vie od 3.500.000 oblika Leksikon je namijenjen:
uenicima hrvatskoga jezika (izvornim govornicima i strancima koji ue hrvatski) strunjacima sustavima za pretraivanje (Internet i intranet trailice), crpljenje obavijesti, dubinsku obradbu teksta i raunalnolingvistiku obradbu hrvatskih tekstova
Hrvatski lematizacijski posluitelj omoguuje pretraivanje Hrvatskoga morfolokoga leksikona i njegovu uporabu u raunalnolingvistikim postupcima:
1. generiranja svih oblika hrvatskih rijei 2. prepoznavanja svih oblika hrvatskih rijei tj. svoenja na osnovni oblik (lematizacija)
Kako je hrvatski jezik iznimno bogat oblicima, pretraivanje www-stranica, kad se obavlja putem leme ili uporabom zamjenskih znakova (npr. glav* za glava u svim oblicima), daje nezadovoljavajue rezultate
Hrvatski lematizacijski posluitelj omoguuje automatsko generiranje upita prema svim oblicima hrvatskih rijei te slui i kao polazite za precizno i sveobuhvatno pretraivanje hrvatskih www-stranica s pomou Googlea
Hvala...