Professional Documents
Culture Documents
Bülent Özkan Derlem Bilbilim Kitap Bölümü
Bülent Özkan Derlem Bilbilim Kitap Bölümü
Bülent Özkan Derlem Bilbilim Kitap Bölümü
Editör
Prof. Dr. Erdo an BOZ
Editör
Prof. Dr. Erdo an BOZ
“En yi
Akademi, Bir © Gazi Kitabevi Tic. Ltd. ti.
Kitaplıktır.” Bu kitabın Türkiye’deki her türlü yayın hakkı Gazi Kitabevi Tic. Ltd. ti’ne aittir,
tüm hakları saklıdır. Kitabın tamamı veya bir kısmı 5846 sayılı yasanın
hükümlerine göre, kitabı yayınlayan firmanın ve yazarlarının önceden izni
olmadan elektronik, mekanik, fotokopi ya da herhangi bir kayıt sistemiyle
ço altılamaz, yayınlanamaz, depolanamaz.
ISBN 978-975-
Baskı Ekim, Ankara, 2020
0.312 215 14 50
www.gazikitabevi.com.tr
info@gazikitabevi.com.tr
gazikitabevi
Sosyal Medya
gazikitabevi
gazikitabevi
Erdo an BOZ
Ekim-2020, Eski ehir
Prof. Dr. Bülent ÖZKAN
2000 yılında Lisans e itimini Çukurova Üniversitesi Fen
Edebiyat Fakültesi Türk Dili ve Edebiyatı Bölümünde tamamlayan
Özkan, aynı üniversitenin Sosyal Bilimler Enstitüsü Türk Dili ve
Edebiyatı Yeni Türk Dili Anabilim Dalı’ndan 2003 yılında yüksek
lisans, 2007 yılında doktora derecesi almı tır. 2000-2007 yılları
arasında Milli E itim Bakanlı ı’na ba lı okullarda Türkçe
ö retmeni olarak görev yapan Özkan, 2007-2010 yılları arasında
Çukurova Üniversitesi E itim Fakültesi Türkçe E itimi
Bölümünde Ö retim Görevlisi Doktor olarak görev yapmı , 2010
yılında Mersin Üniversitesi E itim Fakültesi Türkçe E itimi
Bölümünde Yardımcı Doçent Doktor olarak göreve ba lamı tır.
2014 yılında Türkçe E itimi alanında Doçent ve 2020 yılında
Profesör unvanı alan Özkan, halen Mersin Üniversitesi E itim
Fakültesi Türkçe E itimi Bölümünde bu görevini sürdürmektedir.
Özkan’ın ba lıca çalı ma konuları Türkçe ö retimi, derlem dilbilim
ve sözlükbilimdir.
Ç NDEK LER
Derlem Dilbilim............................................................................. 1
Prof. Dr. Bülent ÖZKAN
1. Derlem Nedir?
Derlem, (corpus) dilbilimde bir dili belirgin dilbilimsel
kriterlere göre örneklemek amaçlı olarak o dile ait yazılı ve sözlü
metinlerden seçilerek belirli standartlara göre düzenlemi metin
parçalarının bütünü (McEnery vd., 2006) olarak tanımlanabilir.
Do al Dil leme (DD ) olarak da adlandırılan bilgisayarlı
dilbilim, derlem adı verilen bu dil örnekçeleri temel alarak,
uygulamalı dilbilimin (applied linguistics) paralelinde, ba ta sözlük
bilim olmak üzere dilbilgisi, a ız, çeviri bilim, tarihsel dilbilgisi ve
dilsel de i im, dil ö renimi ve ö retimi, anlambilim,
kullanımbilim, toplum dilbilim, söylem çözümlemesi, biçembilim ve
yazınbilim çalı malarında yo unlukla kullanmaktadır (McEnery
vd. 2006: 80-122; Kennedy 1998: 208-310).
Derlemler farklı amaçlar için olu turulabilir. Alanyazında söz
konusu bu farklı amaçlılıkları kar ılayan derlemlerin varlı ını
görebilmekteyiz. çlemleriyle ve amaçlılıklarıyla ko ut olarak
alanyazında yazılı ve/ya sözlü içeri e sahip ve belirli bir dilde
dilsel çe itlili i yansıtabilen genel derlemler (general corpora);
‘petrokimya derlemi’ ya da ‘bilgisayar bilimleri derlemi’ benzeri
Bu çalı ma, “Türkçe için ‘Kendi Kendine Derlem’ Platformu Olu turma”
ba lıklı ve TÜB TAK - 1005 - Ulusal Yeni Fikirler ve Ürünler Ara tırma
Destek Programı kapsamında desteklenmi olan ulusal ara tırma projesinin
sonuç raporuna dayanmaktadır. Katkıları için TÜB TAK’a te ekkür ederim.
Mersin Üniversitesi, (ozkanbulent@gmail.com), ORCID: 0000-0002-4319-
7582
Derlem Dilbilim
Temel Kavramlar1
i. Tabaka: Derlemlerde ara tırma sorularına göre
biçimlendirilebilen benzer nitelikli metinlerin dili örneklemek ve
dili temsil gücü gibi niteliklere ba lı kalınarak olu turulan ana
1
Tanımlar, Malmkjaer 2001 ve Baker vd. 2006'dan özetlenerek alınmı tır.
Derlem Dilbilim
metin yı ını. Örne in yazın türleri ayrı bir tabaka olu turabilece i
gibi internet metinleri ya da herhangi bir ana tabakaya girmeyen
çe itli türler (bilimsel yazılar vb.) ba kaca tabakalar olarak
derlemlerde yer alabilir.
ii. Metadata: Derleme alımlanan her bir metin için
“üstveri” olarak da adlandırılan metin adı, yazar adı,
yayın yılı, ilk yayın tarihi, son basım tarihi, yazarın
cinsiyeti, metin cümle sayısı, farklı ve aynı cümle sayısı
vb. metin nitelikleri. (Burnard 2004).
iii. aretleme (annotation): Sözcük türü, cümle ve di er
nitelikler açısından derlemde yer alan her bir birimin
etiketlemesi.
iv. Etiketleme (tagging): Derlemde yer alan birimleri
belirli nitelikleri açısından i aretleme. Örne in, sözcük
türü, tümce yapısı vb. etiketleme gibi.
v. Sözbirimle tirme (lemmatizing/lemmatization):
Derlemde yer alan her bir sözcükbirimi belirleme.
vi. Tekille tirilme (deduplication): Derlemde yer alan her
bir birimi tek bir birime indirgeme.
vii. Biçimbirimsel/özniteliksel çözümleme (morphological
analysis): Derlemde yer alan her bir birimi
biçimbirimsel olarak çözümleme.
viii. Sıklık analizi (frequency analysis): Derlemde yer alan
her bir birimin derlemde geçme sayısını belirleme.
ix. Tümce bölümleme (sentencer/parser/parsing):
Derlemde yer alan metin kayıtlarını tümcelere
ayrı tırma.
x. n-gram hesaplama: Temelde bir dizide yer alan ses,
hece veya sözcü ü önceleyen ya da takip eden/edecek
olan dizi elemanını bulmaya ya da onu kestirmeye
dayanan n-gram modeli söz konusu yapıların
çıkarımında kullanılan yaygın bir yöntemdir. (Jurafsky
2006). n-gramlar [...n-3, n-2, n-1 || n+1, n+2, n+3...
Bülent ÖZKAN
STANDART
ET KET
ESNEK
me
sesletim, çekimlenme
Biçimbirimsel
MODÜLÜ
ANLAM B L M
ba lı olarak Genel
Sözbirimle tir
MODÜLÜ
Anlambilim, Sözcük
ANLAM me
Anlambilimi, Tümce
BLM Bölümlenmi
Anlambilimi'ne ait
Tümceler
etiketler vb.
belirlenebilmektedir
Sözbirimle tir
SÖZCÜK B L M MODÜLÜ
me
Biçimbirim
Çözümlemesi
Bölümlenmi Sözcük türleri, sözcük
SÖZCÜK Tümceler grupları ve türleri,
BLM Sıklık e dizimli yapılar
Belirleme etiketlenebilmektedir.
n-gram
Hesaplama
E dizimlilik
Hesaplama
Ara tırma sorularına
SÖZ D Z M
MODÜLÜ
göre biçimlendirilebilen
Bölümlenmi
SÖZ D Z M söz dizimsel öge
Tümceler
etiketleri
olu turulabilmektedir.
Biçimbirimsel
çözümlemelerde var
olan i aretleyiciler
B Ç MB L M
üzerinden yapılan
Sözbirimle tir
MODÜLÜ
Örne in bir sözlük bilim ara tırmasında olu turulan derlemden alınan
standart raporlardan bölümlenmi tümceler, sözbirimle tirmeler,
biçimbirimsel çözümlemeler ve belirlenmi sıklıklar ara tırma sorularına
uygun olarak ara tırmacı tarafından sistemde tanımlanan yazımsallık,
sesletim, çekimlenme biçimleri, sözcük türü, anlam/lar), tanımlama,
tanıklama, kullanım, di er türetimler, köken bilgisi vb. esnek etiketlerle söz
konusu sözbirimler tanık tümcelerle aracılı ıyla sistem üzerinden
i lenebilecek ve raporlanabilmektedir.
Bülent ÖZKAN
5. LEM BASAMA I
KKDP'de 5. i lem basama ı serbest sorgu olana ı sunabildi i gibi
raporların çıktıları 4. i lem basama ında belirlenen etiketlenmi -
i aretlenmi veriler üzerinden grafik, liste ve XML, word, txt, pdf
benzeri formatlarda dı a aktarılabilmektedir. Dı a aktarılabilen sorgu
sonuçları ara tırma sorularına göre belirlenen ve ara tırmacının
belirledi i veri tabanı kayıtlarıdır. Bu çıktılar bir arayüzle standart
raporlar ve/ya esnek raporlar olarak alınabilmektedir.
6. ve 7. LEM BASAMA I
KKDP'de 6. ve 7. i lem basamakları standart derlem raporlamasına
kar ılık gelmektedir. Kullanıcı (ara tırmacı) veri tabanında tutulan
yapılarla ilgili istedi i raporları rapor listesinden seçerek dı a
aktarabilmekte ya da ekrana yazdırabilmektedir. Bu modül bazlı bir
raporlamadır ve etiketlenen/i aretlenen yapılara göre de i iklik
gösterebilmektedir.
KKDP'nin 7. i lem basama ı esnek raporlama basama ıdır. Burada 4.
basamakta yer alan ve ara tırmacının kendisi tarafından ara tırma
soruları çerçevesinden belirlenen esnek etiketleme-i aretlemeler sorgu
sonuçlarına ba lı olarak çe itli dosya formatlarında veri tabanından
raporlanabilmekte, bu raporlamalarla ilgili grafik ve listeleri elde
edebilmektedir.
KKDP G R PANEL
Giri Paneli, http://kkd.mersin.edu.tr adresinden aynı zamanda
proje tanıtım için hazırlanmı bir web sayfası üzerinden
ara tırmacıların kayıtlı kullanıcı adı (e-posta) ve tanımlı ifreleri
aracılı ıyla KKDP’ye eri im sa ladıkları arayüzdür ( ekil 2).
Tanıtım sayfası aynı zamanda Derlem Dilbilim E itim Modülü’yle
sistem kullanımı hakkında e itim dosyalarını da içermektedir.
Sistem üzerinden kayıtlı her ara tırmacı için ara tırmacıya
özel ayrı bir veri tabanı alanı tanımlanmakta ve tüm i lemleri
Derlem Dilbilim
A a ıda yer alan ( ekil 22) arayüzde ara tırmacı ara tırma
sorularına ko ut olarak sözcük anlam bilimi ile ilgili etiketler
tanılayabilmektedir. Tanılanan etiketler veri giri arayüzünde
i lemlenebilmektedir.
A a ıda geleneksel anlamda birtakım anlambilim etiketleri
esnek etiket olarak örnek olu turmak amacıyla eklenmi tir. Ancak
sistem üzerinden elbette daha farklı çalı malar için farklı etiketler
tanılanabilmekte ve buna ba lı olarak ara tırma sorularına cevaplar
aranabilmektedir.
Bülent ÖZKAN
ekil 41. Söz Dizimi Molüdü öbek yapı ayırma cümle yapısı
belirleme arayüzü
Bülent ÖZKAN
3. SONUÇ
Bu çalı ma 2007 yılından bu yana derlem dilbilim alanında
yürütülen ve birço u Tübitak tarafından desteklenen projelerde
elde edilen yazılım kümelerinin yeniden düzenlenerek tüm
ara tırmacıların kullanımına sunulması hedefiyle ortaya
koyulmu tur.
Olu turulan derlem platformu dilbilimcilere var olan standart
derlem çıktıları vermenin yanında ara tırmacıların ara tırma
sorularına ba lı olarak biçimlendirilebilen, ara tırmacıya özel,
esnek, kolay ula ılabilir, veri tabanı destekli ve ara tırma
sonuçlarının sa lıklı bir ekilde raporlanabildi i bir derlem
altyapısı sunması nedeniyle yenilikçi bir yöne sahiptir.
Projeyle olu turulan altyapı Türkçe dil/dilbilim ara tırmaları
açısından dü ünüldü ünde ara tırmacılara Türkçenin rekabet
gücünü arttıracak olanakları sunacaktır.
Bülent ÖZKAN
Kısaltmalar
DD : Do al Dil leme
KKDP : Kendi Kendine Derlem Platformu
TÜB TAK : Türkiye Bilimsel ve Teknolojik Ara tırma Kurumu
XML : Extensible Markup Language (Türkçesiyle
Geni letilebilir aretleme Dili)
UTF : Unicode Transformation Format
Bülent ÖZKAN
anlam/lar : sense
anlambirimsel : semantic
art süremli derlemler : diachronic / historical corpora
ba ımlı dizin : concordance
biçimbirimsel : morphological
biçimbirimsel/özniteliksel
çözümleme : morphological analysis
çekimlenme biçimi : inflections
çoklu sorgu : multiple query
derlem : corpus
derlem dilbilim : corpus linguistics
di er türetimler : run-ons
dur listesi : stop list
e süremli derlemler : synchronic corpora
e dizimlilik : collocation
etiketleme : tagging
genel derlemler : general corpora
i aretleme : annotation
izlem derlemleri : monitor corpora
köken bilgisi : etymology
kullanım : usage
metadata : üstveri
ö renici derlemleri : learner corpora
örnekleme : sampling
özel alan derlemi : specialized corpora
serbest sorgu : query
Derlem Dilbilim
sesletim : pronunciation
sıklık : frequency
sıklık analizi : frequency analysis
sorgu geçmi i : query history
söz dizimsel : syntactic
sözbirimle tirme : lemmatizing/lemmatization
sözcük türleri : part of speech
sözcük türü : word class
sözcükbirimsel : lexical
sözlü derlemler : spoken corpora
sözlükbilimsel : lexicographic
tanıklama : examples
tanımlama : definition
tekille tirilme : deduplication
temsil gücü : representativeness
tümce bölümleme : sentencer/parser/parsing
uygulamalı dilbilim : applied linguistics
yazılı derlemler : written corpora
yazımsallık : spelling
Kaynaklar