Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 16

Hrvatski nacionalni korpus

Ivana Simeon
(ivana.simeon@ffzg.hr)

Odsjek za lingvistiku, Filozofski fakultet Sveuilita u Zagrebu

Korpusna lingvistika

Odlike korpusnog pristupa empirijska analiza temelj: opsene i ureene zbirke tekstova primjena raunala kvantitativne i kvalitativne tehnike

Prednosti raunala u lingvistikim istraivanjima: mogunost brze obrade velike koliine podataka dosljednost mogunost interakcije

Podruja primjene korpusnog pristupa: leksikologija/leksikografija, sociolingvistika, usvajanje jezika, poduka jezika, stilistika, forenzika lingvistika...

to je korpus?

zbirka tekstova korpus u uem smislu raunalno podran korpus

pojavnica (token) razlinica (type) lema (lemma)


analiza korpusa: morfoloka sintaktika semantika pragmatika

Prednosti korpusnog pristupa

korpusni je pristup obogatio lingvistika istraivanja: brzim, preciznim i sloenim analizama golemom koliinom informacija o jezinoj uporabi bogatim opisima korpusi omoguuju provoenje novih kao i proirenje opsega ranijih istraivanja ak i ako lingvist ne provodi korpusno istraivanje, poznavanje ovog pristupa ini ga informiranim konzumentom korpusnih studija

Opi podaci o HNK-u (http://www.hnk.ffzg.hr)

Prikuplja se i obrauje u Zavodu za lingvistiku Filozofskoga fakulteta u Zagrebu od jeseni 1998.

Prvotna inaica: HNK v. 1.0


Poetna zamisao prikupiti HNK kao reprezentativni korpus suvremenoga hrvatskog jezika Meutim, ukljueni su i stariji tekstovi 2 glavne sastavnice: 30-milijunski korpus (30m) Hrvatski elektronski tekstovni arhiv (HETA) XML-obiljeen rezultati pretrage u obliku KWIC konkordancija HNK v. 1.0 dostupan do 2004.

Konkordancije za upit tajkun* u HNK-u v. 1.0

Statistike posjeta za web-stranicu HNK-a v. 1.0

Platforma za novu inaicu HNK-a

Trenutna inaica: HNK v. 2.0


Od 2005. godine, HNK je premjeten na novu posluiteljsku platformu Manatee, u okviru projekta Razvitak hrvatskih jezinih resursa (MZO RH 0130418)

Posluitelj je dopunjen besplatnim klijentskim programom Bonito koji omoguava pristup i pretragu korpusa uz sljedee funkcije:

Raspoloive pretrane funkcije


Pretrage nad vie od jedne rijei Pretrage s dodatnim jezinim podacima (npr. lema, vrsta rijei, morfosintaktiki opis) Regularni izrazi Generiranje ad hoc potkorpusa prema odabranim kriterijima Automatsko utvrivanje kolokacija Statistiki podaci, od jednostavnih frekvencija do distribucije frekvencija unutar korpusa, potkorpusa, uzorka itd. Korisniku prilagoeno suelje za Windows, Linux/Unix, MacOS

Daljnji razvitak

Perspektive: HNK 2.5


Nova inaica HNK koja e podravati pretrage s lemama i morfosintaktikim opisom Zasad se taj tip pretrage moe testirati na ogranienom probnom korpusu (cw2000) Hrvatski skup MSD oznaka koriten u HNK u potpunosti je u skladu s preporukama MulTextEast

Portal Jezine tehnologije za hrvatski jezik


http://jthj.ffzg.hr/

Portal Hrvatske jezine tehnologija


i-projekt MZT-a Zapoet u studenome 2000. trajanje: 1 godina Odravanje podataka: barem jo 3 godine

Portal Jezine tehnologije za hrvatski jezik

Javni katalog
ustanova projekata jezinih resursa (korpusi, e-tekstovi...) alata (konkordancije, MT...) aktivnosti (konferencije) povezanih s (hrvatskim) jezinim tehnologijama

Hrvatska ovisnosna banka stabala - HOBS

http://hobs.ffzg.hr/
Cilj:
Izraditi sintaktiki oznaen korpus hrvatskoga jezika opsega barem 100.000 pojavnica

Metoda:
Oznaavanje e se provoditi na temelju ovisnosne analize u reenicama iz korpusa Model sintaktikoga opisa i oznaavanja preuzet je iz Prake ovisnosne banke stabala

Zasad: 50 runo analiziranih i oznaenih reenica

Hrvatski morfoloki leksikon HML

http://hml.ffzg.hr/ Leksika baza s vie od 45.000 rijei opega jezika, 15.000 osobnih mukih i enskih imena, 50.000 prezimena registriranih u Republici Hrvatskoj Na temelju toga resursa proizvedeno je vie od 3.500.000 oblika Leksikon je namijenjen:
uenicima hrvatskoga jezika (izvornim govornicima i strancima koji ue hrvatski) strunjacima sustavima za pretraivanje (Internet i intranet trailice), crpljenje obavijesti, dubinsku obradbu teksta i raunalnolingvistiku obradbu hrvatskih tekstova

Hrvatski lematizacijski posluitelj

Hrvatski lematizacijski posluitelj omoguuje pretraivanje Hrvatskoga morfolokoga leksikona i njegovu uporabu u raunalnolingvistikim postupcima:
1. generiranja svih oblika hrvatskih rijei 2. prepoznavanja svih oblika hrvatskih rijei tj. svoenja na osnovni oblik (lematizacija)

Kako je hrvatski jezik iznimno bogat oblicima, pretraivanje www-stranica, kad se obavlja putem leme ili uporabom zamjenskih znakova (npr. glav* za glava u svim oblicima), daje nezadovoljavajue rezultate

Hrvatski lematizacijski posluitelj omoguuje automatsko generiranje upita prema svim oblicima hrvatskih rijei te slui i kao polazite za precizno i sveobuhvatno pretraivanje hrvatskih www-stranica s pomou Googlea

Hvala...

You might also like